автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Исследование и разработка моделей и алгоритмов структурно-логической обработки информации в документальных информационно-аналитических системах

кандидата технических наук
Васина, Елена Николаевна
город
Москва
год
2009
специальность ВАК РФ
05.25.05
Диссертация по документальной информации на тему «Исследование и разработка моделей и алгоритмов структурно-логической обработки информации в документальных информационно-аналитических системах»

Автореферат диссертации по теме "Исследование и разработка моделей и алгоритмов структурно-логической обработки информации в документальных информационно-аналитических системах"

На правах рукописи

ВАСИНА ЕЛЕНА НИКОЛАЕВНА

ИССЛЕДОВАНИЕ И РАЗРАБОТКА МОДЕЛЕЙ И АЛГОРИТМОВ

СТРУКТУРНО-ЛОГИЧЕСКОЙ ОБРАБОТКИ ИНФОРМАЦИИ В ДОКУМЕНТАЛЬНЫХ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ

СИСТЕМАХ

05.25.05 - Информационные системы и процессы, правовые аспекты информатики

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

- з ДЕК 2009

Москва 2009

003486062

Работа выполнена на кафедре Информатики ГОУ ВПО «Российская экономическая академия им. Г.В. Плеханова».

Научный руководитель: доктор технических наук, профессор

Максимов Николай Вениаминович

Официальные оппоненты: доктор технических наук, доцент

Косяченко Станислав Анатольевич

кандидат физико-математических наук Куприянов Вячеслав Михайлович

Ведущая организация: ФГУ "Федеральный институт промыш-

ленной собственности Федеральной службы по интеллектуальной собственности, патентам и товарным знакам"

Защита диссертации состоится «16» декабря 2009 г. в 14-00 часов на заседании диссертационного совета Д 212.198.02 в Российском государственном гуманитарном университете по адресу 125993, г. Москва, Миусская пл., 6.

С диссертацией можно ознакомиться в библиотеке Российского государственного гуманитарного университета.

Автореферат разослан «16» ноября 2009 г.

Ученый секретарь диссертационного совета

Меркулов В.Н.

Общая характеристика работы

Актуальность избранной темы. Современный уровень развития информационных технологий делает доступными в реальном масштабе времени информационные ресурсы самого разного объема и содержания. Для облегчения работы с большими объемами информации разрабатываются разнообразные формы и способы ее представления, а также методы поиска, что выражается, например, в создании систем, индивидуально настраиваемых самим пользователем.

Принципиально важным фактором, определяющим направление развития современных информационных систем, является то, что взаимодействие пользователей с информационными ресурсами происходит в режиме «информационного самообслуживания», когда пользователь, по существу, уже не разделяет свою деятельность на информационную и основную.

Соответственно, тенденции развития документальных АИС заключаются в постепенном расширении традиционных функций и активном подключении к поисковым механизмам аналитических возможностей, т.е. в переходе к документальным информационным системам следующего поколения - интегральным информационно-аналитическим системам, которые сочетают функции создания базы данных, анализа ее лексического и документального содержания, синтеза и оптимизации лингвистических структур (словарей, рубрикаторов, тезаурусов), совместно с БД образующих информационную модель предметной области. Это означает, что пользователь создает по существу новый, проблемно-ориентированный, самостоятельно обновляемый и пополняемый информационный ресурс, включающий помимо подборок документов также и метаин-формацию.

В связи с этим проблема исследования и моделирования как процессов информационного поиска в документальных информационно-аналитических системах, так и методов и алгоритмов построения средств, формирующих информационное пространство пользователя согласно его потребностям, является актуальной.

Степень разработанности проблемы. Проблемам моделирования поисковых процессов в информационных системах посвящены труды зарубежных ученых Chen Hsinchun, Saltón G., Rijsbergen C.J.. Среди отечественных ученых, труды которых могут рассматриваться в качестве теоретической базы диссертации, выделяются: Белоногов Г.Г., Гиляревский P.C., Романенко А.Г., Попов И.И., Максимов Н.В.

Современные достижения информационных технологий ставят новые задачи в области развития возможностей информационных систем, поэтому дальнейшие исследования данного научного направления представляются целесообразными.

Объектом исследования являются процессы автоматизированного поиска и анализа документальных баз данных, определяемых как машиночитаемые массивы информации, представленной в различной форме и на различном уровне (в том числе в виде комплекса баз данных первичной, вторичной и справочной информации), и рассматриваемых совместно со средствами доступа к ним.

Предметом исследования являются:

- комплекс лингвистических и технологических средств автоматизированных информационно-поисковых систем, обеспечивающих эффективность процессов поиска информации в документальных БД;

- технологии и алгоритмы управления информационными ресурсами, организующие информационное пространство пользователя.

Целью исследования является разработка комплекса моделей, алгоритмов, методов и средств систематизации документальной информации, ориентированных на совершенствование технологий и механизмов поиска информации в документальных информационных ресурсах, а также анализа структуры и динамики предметных областей.

Данная цель конкретизируется следующими задачами:

- определение основных принципов функционирования АИПС, ориентированных на задачи анализа информационных потоков;

- системный анализ взаимосвязи информационных объектов в процессах генерации и поиска информации;

- определение понятия и построение модели интегрального рабочего пространства пользователя;

- разработка модели когнитивного рубрикатора предметной области, как основного компонента рабочего пространства;

- разработка программных средств поддержки когнитивного рубрикатора пользователя;

- разработка метода автоматической классификации документов, основанного на применении когнитивного рубрикатора.

Методы исследования. Основные результаты получены и обоснованы с использованием методов теории вероятностей, теории множеств, линейной алгебры, системного анализа и компьютерного моделирования.

Экспериментально-статистической базой исследования послужили базы данных реферативно-библиографической информации ВИНИТИ РАН «Информатика», ВНТИЦентра «Информационные карты НИР и ОКР» и «Информационные карты диссертаций».

Нормативную базу исследования составили такие стандарты, как ГОСТ 7.0-99 Система стандартов по информации, библиотечному и издательскому делу; ГОСТ 7.74-96 Информационно-поисковые языки, термины и определения; ГОСТ 7.77-98 СИБИД Межгосударственный рубрикатор научно-технической информации. Структура, правила использования и ведения.

Научная новизна работы.

Разработаны модели и алгоритмы структурно-логической обработки информации, основанные на введенных понятиях рабочего пространства пользователя и когнитивного рубрикатора, обеспечивающих управляемую навигацию в локальных и распределенных информационных ресурсах.

Обоснована структура когнитивного рубрикатора как операционного средства рабочего пространства пользователя, интегрально отражающего видение предметной области на знаковом, понятийном и предметном уровнях.

На защиту выносятся следующие положения:

- понятие рабочего пространства пользователя, включающего информационные и процедурные компоненты, управляющие навигацией в локальных и распределенных документальных информационных ресурсах;

- понятие когнитивного рубрикатора, включающего систематическую и объектную составляющие и динамически отражающего когнитивное состояние пользователя по отношению к состоявшемуся знанию;

- модель когнитивного рубрикатора как операционного средства рабочего пространства пользователя, интегрально связывающего представления пользователя с информационными ресурсами предметной области на знаковом, понятийном и предметных уровнях;

- математическая модель классификации текстовых документов, динамически соотносящая найденные документы с разделами когнитивного рубрикатора пользователя.

Теоретическая и практическая значимость работы. Отдельные положения работы представляют собой вклад в теорию и практику информационного поиска, использованы при разработке конкретных прикладных программных комплексов управления документальными информационными ресурсами на примере реализации подсистем документальной информационно-аналитической системы хШЛБ1 и могут быть рекомендованы к дальнейшему применению при разработке и развитии документальных информационных систем.

Отдельные положения могут быть использованы в теоретических курсах и лабораторных практикумах в учебном процессе вузов при подготовке бака-

1 Документальная информационно-аналитическая система хШВК - программа для ЭВМ. Свидетельство №2008611511 от 25.03.2008г. Государственный реестр программ для ЭВМ, 2008г.

лавров, дипломированных специалистов и магистров по специальностям «Информационные системы (по областям)» и «Прикладная информатика (по областям)».

Внедрение результатов. При непосредственном участии автора разработана и применяется для создания промышленных информационных ресурсов документальная ИАС хШВГБ.

Результаты диссертационной работы внедрены в ВИНИТИ РАН, ИНИОН РАН, ВНТИЦентре РФ.

Публикации и апробация работы. По материалам исследований опубликовано 11 печатных работ, в том числе три работы в издании, входящем в Перечень ведущих рецензируемых научных журналов и изданий, в которых должны быть опубликованы основные научные результаты диссертации на соискание ученой степени доктора и кандидата наук, утвержденный Высшей аттестационной комиссией Министерства образования и науки Российской Федерации.

Результаты работы докладывались на следующих научных конференциях:

Международная конференция под эгидой международной федерации по информации и документации (МФД) - НТИ 96. Информационные продукты, процессы и технологии, Москва, 20-21 ноября 1996;

5-я международная конференция НТИ-2000. Информационное общество, информационные ресурсы и технологии телекоммуникации, Москва, 22-24 ноября 2000 г.";

Научно-практическая конференция «Информационные технологии в экономике XXI века», посвященная 100-летию РЭА им. Г.В. Плеханова, Москва, февраль 2006 г.;

7-я Международная конференция. НТИ-2007;

Научная сессия МИФИ-2008.25-27 янв. 2008;

Научная сессия МИФИ-2009. XXIII выставка-конференция «Телекоммуникации и новые информационные технологии в образовании».

Диссертационное исследование соответствует паспорту специальности 05.25.05 - Информационные системы и процессы, правовые аспекты информатики, пункту 1: Методы и модели описания, оценки, оптимизации информационных процессов и информационных ресурсов, а также средства анализа и выявления закономерностей в информационных потоках.

Объем и структура диссертации. Диссертация состоит из введения, четырех глав, заключения, библиографического списка и приложений. Диссертация содержит 10 таблиц и 47 рисунков. Общий объем работы составляет 139 страниц машинописного текста.

Содержание работы

Во введении обоснована актуальность рассматриваемой проблемы, определены цель, задачи, предмет, объект исследования, раскрыта его теоретическая и методологическая база, сформулирована научная новизна, теоретическая и практическая значимость.

В первой главе определены структурно-методологические основы информационно-поисковых систем, рассматриваемых как составляющая совокупной системы основной/информационной деятельности в процессах создания нового знания. Принимается2, что формализованная схема научного поиска -процесса генерирования информации с использованием ранее полученных знаний с точки зрения общей теории систем включает следующие этапы:

1) поиск и извлечение информационных блоков из информационной среды;

2) упорядоченная или случайная комбинаторная проверка ценности этих блоков;

3) расширение знаний за счет тех комбинаций информационных компонентов, которые образуют целостную систему понятий, и их использование для решения задачи основной деятельности;

2 Дружинин В. В. Проблемы системологии. / Дружинин В.В., Конторов Д.С. - М.: Советское радио, 1976.-296 с.

4) публикация информации - представление нового «личного» знания субъекта в такой форме, которая обеспечит его «узнаваемость» и, соответственно, повторное использование внутри и вне когнитивной системы.

Если в процессе генерации новой информации используется АИПС, то её работа, рассматриваемая как замещающая часть соответствующего участка основной деятельности, будет включать следующие основные функции:

1) поиск - процесс отбора из информационных ресурсов документов, каждый из которых представляет, по крайней мере, один информационный компонент или его образ;

2) комбинаторное построение на основе множества характеристических признаков кластеров информационных компонентов и определение степени «целостности» этих кластеров уже как новых информационных компонентов;

3) упорядочение кластеров в порядке убывания их «ценности» с целью сокращения объема просматриваемой субъектом выборки в предположении, что мера ценности соответствует вероятности содержания в кластере искомого нового.

При этом, применение системного подхода3 к построению комбинаций информационных компонентов, который любой объект представляет как систему в системе объектов того же рода, позволит:

- представить объект как совокупность типизированных элементов, связанных некоторыми отношениями, в совокупности образующими единство, для которого характерно появление свойств, не присущих составляющим;

- представить систему этих однородных объектов в виде классификации, что дает возможность выделять в явной форме, в том числе и новые характеристические признаки, определять способы выделения подсистем, а на основе свойств соответствия и симметрии обнаруживать связи с другими системами классификации.

3 Урманцев Ю.А. Общая теория систем: Состояние, приложения и перспективы развития. Сборник «Система, Симметрия, Гармония", - М., Мысль, 1988, с.38-124

Именно этот подход методологически связывает относительно самостоятельные и, в тоже время, взаимообуславливающие объекты и процессы основной и информационной деятельности в цикле генерации новых знаний.

Процесс поиска является итеративным, каждая итерация которого включает два действия: 1) построение кластера документов и 2) построение терминологической системы - некоторого явного представления контекста этого кластера документов.

На уровне интерфейса среди средств поиска и работы с документами должны быть выделены технологические объекты и инструменты, чтобы облегчить пользователю переключение с задачи своей информационно-поисковой деятельности (сбора информации для решения задачи) на «вспомогательную» информационно-управляющую - оценку своих поисковых действий и состояний.

Такими объектами могут быть словари поисковой системы, тематические словники, тезаурусы, представляющие информативную лексику предметной области. Эти объекты, являясь технологически вспомогательными, используются на разных этапах поиска и обеспечивают возможность более или менее адекватного выражения информационной потребности пользователя. Однако эффективность их использования для отражения индивидуальных особенностей информационной потребности достаточно низка, поскольку, вследствие усредненной природы, они представляют предметную область в целом.

Схема и механизмы поиска в диалоговой АИПС должны строиться в предположении, что любая нетривиальная реальная информационная потребность не может быть удовлетворена одним или несколькими сразу найденными документами, а требует проведения серии поисков и выделения полезных фрагментов информации на каждой стадии развития запроса.

Объект, хранящий информацию о процессе поиска, имеет линейную структуру и в различных АИПС носит разные названия - «протокол поиска», «история поиска» и т.д. (в дальнейшем будет использоваться термин «протокол»).

Протокол, как технологический объект поискового процесса, позволяет представить результаты этого процесса в виде объединения подмножеств документов, каждое из которых построено в соответствии с критерием отбора и характеризуется степенью соответствия информационной потребности.

Для обеспечения соответствия объектов физического и логического уровней вводится промежуточный интерфейсный уровень представления процесса поиска.

Объекты этого уровня (и характер их представления, например, упорядочение) структурно будут соответствовать логическому уровню, и каждый из них будет представлять элементы (поисковые образы запросов, словники, результаты поиска), относящиеся к соответствующему предмету поиска, но физически полученные, возможно, на разных этапах.

Динамически создаваемые пользователем иерархически организованные структуры должны отражать его персональное видение предметной области (ПрО). Причем, каждый такой объект представляет как общепринятое, так и индивидуальное видение ПрО. Интегральность такого представления достигается за счет того, что оно реализуется объектами как уровня ресурсов (подборками документов, ссылками на ассоциированные ресурсы и т.д.), так и уровня терминологии (тезаурусами, рубрикаторами, словниками).

С точки зрения такого пользователя, «интегрально» осуществляющего основную и информационную деятельность, можно говорить о некоторой среде, которая может быть названа «интегральным рабочим пространством пользователя».

Структура такай среды, рассмотренная по отношения к ПрО, где выделены «состоявшееся» обобществленное и опубликованной знание, проблемная ситуация и гипотетическое или генерируемое знание представлена на рис. 1.

Рабочее пространство (РП) пользователя - среда, включающая информационные и процедурные компоненты, используемые (и порождаемые) в процессе информационной деятельности, направленной на решение задач основной деятельности (ОД).

Рис. 1 Структура рабочего пространства пользователя

РП реализуется в виде совокупности когнитивного рубрикатора и справочника ресурсов.

Когнитивный рубрикатор РП фиксирует структурно-семантическое состояние и динамику когнитивного процесса (поиска информации в информационных ресурсах для решения задачи ОД) и отражает сходство и различия состоявшегося (опубликованного) и нового (генерируемого пользователем) знания на знаковом (лексическом), понятийном и документальном уровнях. КР, представленный в форме иерархической классификации, отражает через систему классификационных признаков аспекты и «позицию» поисковой задачи (прежде всего в сфере ОД).

Справочник ресурсов реализует «физическую» (по аналогии с теорией БД) составляющую, обеспечивающую доступ к экземплярам хранения: идентификацию и поиск документа в локальных и внешних информационных ресурсах по признакам содержания и адресам хранения. По-существу, справочник

для каждого документа содержит один или несколько идентификаторов, представляющих способ (или адрес) доступа к экземпляру хранения, а также один или несколько поисковых образов, представляющих на разных ИПЯ или с разной степенью полноты и точности смысловое содержание. При этом идентификаторы доопределяются метаданными, отражающими характер и способ их построения.

Соответственно, КР как технологический (и интерфейсный) объект, используемый для организации поиска информации для решения задачи ОД, должен удовлетворять следующим требованиям:

1) иметь средства явной систематизации информации (связывать найденные документы с разделами классификации предопределенным способом);

2) отражать соотношение нового и состоявшегося знания;

3) позволять фиксировать соотношение вновь вводимой классификационной схемы с существующими системами представления знаний (отраслевыми и общенаучными классификаторами, рубрикаторами, тезаурусами и т.д.);

4) представлять как статику (определения, соотносящие объект исследования с объектами состоявшегося знания) через декларативное определение, так и динамику использования определений и их компонентов.

Исходя из семиотической модели, такое представление ПрО будет включать компоненты знакового, понятийного и предметного уровней.

Во второй главе представлен комплекс математических моделей, ориентированных на исследование процессов в документальных информационно-поисковых системах.

В качестве основного математического аппарата используется линейная модель информационных объектов и процессов в документальных АИПС, в рамках которой все описываемые объекты представляются векторами, а процессы - операциями линейной алгебры.

Основным объектом модели является универсальный массив документальной информации Ь0 (в линейном представлении матрица размерности Дхл0, где О - количество терминов, п0- количество документов):

Подобные матрицы известны под названием матрицы «термин-документ». На основе L0 могут быть построены также матрицы «термин-термин» и «документ-документ».

Простейшая матрица «термин-термин»

F = (/y)=L0xLT0 , где

t-i

Компоненты матрицы F являются коэффициентами ассоциации (статистической меры связи) терминов. Но основе F могут быть построены корреляционная и ковариационная матрицы, а также многочисленные варианты коэффициентов близости векторов, которые могут применяться как меры ассоциации терминов.

Линейная модель протокола. Согласно линейной модели поиска результат фиксируется в протоколе и описывается бинарным вектором:

fl, если j - й документ входит в i - й результат (О - в противном случае

Тогда теоретико-множественный образ протокола поиска, представляющего собой совокупность результатов, есть матрица размерности М*п0, где М— количество зафиксированных результатов в протоколе.

При выполнении очередного процесса поиска результат-строка добавляется к матрице, увеличивая ее размерность по строкам на единицу.

Рассмотрим выполнение логических операций над результатами поиска -AND (И), OR (ИЛИ), XOR (ИСКЛЮЧАЮЩЕЕ ИЛИ) и NOT (НЕ), поставив в соответствие каждой логической операции правило ее выполнения с использованием матрицы Q:

где ок из множества бинарных логических операций:

9,={ч,г"Яц-Я, ,J где д,,,

Для унарной операции N01 это правило реализуется следующим обра-

зом:

->9, =("'?,). У = 1>"о)

После выполнения операции формируется результирующий вектор Як - ЧРкЯт > который становится (М +1 )-й строкой матрицы.

Линейная модель когнитивного рубрикатора. Линейное представление отдельной рубрики г, на документальном уровне - бинарный вектор:

/ \ [1, если \ - й документ входит в ! - ую рубрику

г, = - '"" > где г,у =

[О - в противном случае Следовательно, теоретико-множественный образ КР, представляющего собой совокупность рубрик, это матрица «рубрика-документ» И размерности Т х п0 где Г- количество рубрик в рубрикаторе:

1* =

Логические операции над документами рубрик интерпретируются так же, как и логические операции над документами поисковых результатов, хранящихся в протоколе.

Матрица К = 11хЯ' отражает степень взаимного пересечения рубрик на документальном уровне:

К =

К

к1Г

кп

, где

кп ■■■ к1}

Рассматривая КР на понятийном уровне, представим его ассоциативной матрицей 5 - «рубрика-термин», размерности Т х В (Т -количество рубрик, £)-количество терминов в словаре информационного массива документов:

где 5у - коэффициент близости_/- термина и г - рубрики. Каждый столбец матрицы соответствует отдельному термину и описывает множество рубрик, содержащих его. Строка матрицы соответствует рубрике и представляет собой вектор мер значимости терминов для рубрики.

Матрица в может быть построена на основании частотной матрицы «рубя,,

рика-термин» = (/()= ИхЬт0 , где /, = -Ьк] является частотой_/-го термины

на в /-ой рубрике.

Математическая модель метода классификации. Строку матрицы Б в рамках КР интерпретируем как описание рубрики. Используем представление документа в виде бинарного вектора

{1, если 1 - й термин входит в документ п

О-в противном случае

Операция классификации документа выражается в матричном умножении: 8x1 = Т. Элементы результирующего вектора 1 где хан

растеризуют исходный документ с точки зрения близости к рубрикам: чем

больше его величина, тем больше документ соответствует рубрике.

Тем самым, определив максимальный из Ь„ получим рубрику, которой

принадлежит классифицируемый документ, т.е. искомая рубрика г такова, что

г:Ьг=тахЬл /

Для оценки классификации по нескольким рубрикам применяются усредненные (макроусреднение и микроусреднение) показатели полноты (г) и точности (р):

Г,

macro

macro

(1)

z«-

I".

. p,

micro

+ь.)

(2)

где а, - число правильно рубрицированных документов для ¡-ой рубрики,

bi - число неправильно рубрицированных документов,

с, - число неправильно отвергнутых документов.

Рассмотренные представления в линейной форме различных объектов и процессов, осуществляющихся как в документальных АИПС, так и в системах следующего поколения - интегральных информационно-аналитических системах, образуют линейную модель рабочего пространства пользователя и охватывают:

- процессы формирования документальной БД;

- оптимизацию структуры тезаурусов4 и рубрикаторов;

- процессы поиска документов5;

- оценку качества поиска;

- анализ структуры потока публикаций предметной области;

- анализ структуры лексики предметной области.

В третьей главе представлены результаты проведенных экспериментальных исследований применения когнитивного рубрикатора для процесса классификации документов и структуризации предметной области научных исследований.

Для проверки представленного во второй главе метода классификации документов был проведен эксперимент на базах данных реферативно-библиографической информации ВИНИТИ РАН «Информатика» и ВНТИЦ

4 Попов И.И. Моделирование и оптимизация автоматизированных информационных систем и технологий управления документальными информационными ресурсами. Дисс. на соискание ученой степени доктора техн. наук - М.: РГГУ, 1996.

5 Голицына О.Л. Моделирование и разработка средств и технологий поиска документальной информации. Дисс. на соискание ученой степени кандидата техн. наук. - М.: РГТУ, 2004.

«Информационные карты НИР и ОКР» (ИК) и «Информационные карты диссертаций» (ИКД), под управлением ИАС хГОШЯ. В качестве меры близости в данном методе использовались статистические коэффициенты, вычисление которых строится на частотных характеристиках терминов и рубрик (коэффициенты корреляции, Андерберга и Юла). Результаты работы метода сравнивались с классификацией, проведенной экспертами.

Результаты экспериментов для БД «Информатика» (ВИНИТИ) Документы базы данных "Информатика" (73693 док.) размечены экспертами по рубрикатору ВИНИТИ 395 рубриками.

Цель первого эксперимента состояла в том, чтобы определить влияние терминов документа, имеющих.отрицательную корреляцию с рубрикой, на качество классификации.

Сводная таблица результатов по коэффициентам отражает усредненные полноту и точность процесса классификации документов без учета отсутствующих в рубрике терминов документа (Этап 1) и после добавления этих терминов в расчет суммарных коэффициентов для рубрик (Этап 2) (см. таблицу 1).

Таблица .1

Результаты 1 и 2 этапа исследований

Оценка классификации Корреляция Коэффициент Юла Коэффициент Андерберга

Полнота % Точность % Полнота % Точность % Полнота % Точность %

1 этап 2 этап 1 этап 2 этап 1 этап 2 этап 1 этап 2 этап этап 2 этап 1 этап 2 этап

макроусреднение 86 91 82 87 86 88 72 76 86 . 86 80 82

микроусреднение 85 88 88 88 86 89 86 88 88 91 86 88

Показатели по всем коэффициентам улучшаются на втором этапе. Следовательно, для повышения качества классификации следует учитывать термины с отрицательной корреляцией.

В следующем эксперименте были применены различные ограничения для уменьшения размерности матрицы близости.

Для ограничения количества терминов, которые используются при проведении классификации, для каждой рубрики определялись значимые термины. Исследованы следующие варианты использования полученного словника.

1) Используются термины словника с частотой больше средней частоты в рубрике. Словники рубрик ограничивались терминами, частота которых больше средней частоты в рубрике (термин значим, если его частота встречаемости в рубрике больше средней частоты);

2) Используются термины словника, имеющие вес больше среднего весового коэффициента. Термин считается значимым, если его весовой коэффициент IV, =(^(п01/1))х/0 больше средней весового коэффициента по текущей рубрике. Здесь: л0- общее число документов информационного массива, /частота ¡-го термина, - частота ¡-го термина в] рубрике.

Таблица 2.

Результаты эксперимента с использованием ограничений на словники

Определение значимости термина для рубрики Макроусреднение Микроусреднение Соотношение с полным словником %

Полнота % Точность % Полнота % Точность %

Без ограничения 91 87 88 88 100

Больше сред, частоты в рубрике 86 88 86 86 12

Больше сред. вес. коэффициента. 81 84 79 72 15

Результаты эксперимента для БД «Информатика» с использованием коэффициента близости - корреляция и применением различных ограничений для формирования словников рубрик содержатся в таблице 2. Результаты представлены усредненными (макроусреднение и микроусереднение) показателями полноты и точности по всем рубрикам согласно (1) и (2). Последний столбец в таблице показывает, какое количество терминов словника считаются значимыми для рубрики. Полученные результаты позволяют сделать вывод о целесообразности применения ограничения для словников по средней частоте в рубрике.

Результаты эксперимента для БД ИК и ИКД (ВНТИЦ)

Для проведения эксперимента на БД ИК (123347 док.) и ИКД (38527 док.) использовалась рубрикация документов по трехуровневому рубрикатору ГРНТИ. Результаты, представленные в таблице 3, свидетельствуют о предпочтении использования коэффициента корреляции для классификации документов методом, использующим матрицу близости.

Таблица 3.

Результаты эксперимента на БД ИК и БД ИКД

Коэффициент БДИК БД ИКД

Макроусреднение Микроусреднение Макроусреднение Микроусреднение

близости Полнота Точность Полнота Точность Полнота Точность Полнота Точность

% % % % % % % %

Корреляция 92 75 86 78 74 65 71 66

Андерберга 86 68 76 70 75 66 72 70

Юла 83 66 74 69 66 60 64 65

Результаты проведенных экспериментов позволяют сделать выводы о возможности применения предлагаемого метода для автоматической классификации документов документальных БД.

В третьей главе также описан пример применения когнитивного рубрикатора для проведения анализа ПрО и представлены полученные результаты.

В четвертой главе рассмотрены документальная ИАС хШВ18 и реализованные в ней механизмы управления лингвистическими и документальными ресурсами, включая интерфейсные средства построения и ведения когнитивного рубрикатора, справочник ресурсов и процедуры, реализующие процесс автоматической классификации документов.

Основные функции ИАС \IRBIS:

- формирование структурированного описания предметной области;

- мультиагентный поиск в локальных и распределенных ИР документальной информации и информационных источников;

- формирование терминологических систем предметной области (словари терминов, классификации, тезаурусы, онтологии);

- анализ состояния и динамики научных направлений на основе статистического анализа информационных потоков и лексики предметных областей.

Результаты диссертационной работы реализованы в следующих подсистемах ИАС хШШБ.

Подсистема статистического анализа документальных потоков и лексики обеспечивает для результатов тематического поиска и для документального ресурса в целом статистический анализ с применением компонентов

деловой графики и представление документального потока в виде временного ряда с последующим анализом с целью выявления характеристических свойств и общих тенденций. Для результатов поиска, представленных в виде тематических частотных словарей лексики, реализованы возможности отображения в форме таблиц и диаграмм с поддержкой функций сортировки, редактирования и вывода.

Подсистема анализа и ведения объектов лингвистического обеспечения ориентирована в основном на создание и поддержку пользовательского лексического пространства в рамках интересующей его предметной области и обеспечивает:

формирование когнитивного рубрикатора;

формирование тематических словников по результатам вычислений мер тематической близости, основанных на частотных характеристиках, и соотнесение их с рубриками пользовательского рубрикатора;

построение иерархических словарных структур, которые в дальнейшем могут быть использованы в качестве мини-тезаурусов при формировании поискового запроса;

формирование на основе когнитивных рубрикаторов и тематических словников специализированных матриц тематической близости, применяющихся при реализации процедуры автоматической классификации документов.

Логическая модель рубрикатора представляет собой иерархическую древовидную структуру, элементами которой являются рубрики (см. рис.2). Порожденные элементы называют подрубриками. Каждая рубрика может иметь одну или несколько подрубрик. Все рубрики имеют одинаковый набор атрибутов, которые отражают три различных уровня представления ПрО.

Когнитивный Поля рубрики Представления Состоявшееся

Рис 2 Структура когнитивного рубрикатора Уровень знаков:

Наименование. Шифр. Каждая рубрика имеет наименование и шифр, которые составляют идентификатор рубрики. Наименование отражает тематику рубрики и является обязательным полем, шифр определяет ее место в иерархии рубрикатора.

Заимствованные рубрики. Пользователь может заимствовать рубрику из официального рубрикатора, что в дальнейшем даст возможность воспользоваться классификационными признаками заимствованной рубрики. Уровень понятий:

Признак деления. Это поле содержит правило деления рубрики на подрубрики. Понятия. Свое представление об исследуемой тематике пользователь может выразить с помощью составленных им словников, а также воспользоваться доступными тематическими тезаурусами, найдя в них подходящие дескрипторные статьи.

Статистика. Статистические словники, построенные на основе документов рубрики, позволят проанализировать лексику, применяемую к данной проблематике. Для этой же цели служат распределения и временные ряды употребления лексики, которые отражают изменения в терминологии.

Предметный уровень: Документы, присоединенные к рубрике, имеют различную степень соответствия исследуемой тематике, которая фиксируется соответствующим признаком. Поисковые запросы, представленные в рубрике, отражают, во-первых, лексику текущей рубрики, а, во-вторых, правила включения документов в рубрику, сформулированные на ИПЯ.

Информационные ресурсы. Ссылки на внешние ресурсы указывают на соответствующие данной тематики удаленные БД, ¡Шегпй-сайты и т.д. Классификационная матрица. Поле, содержащее ссылку на матрицу близости «рубрика-термин» для проведения автоматической классификации с использованием рубрикатора.

Все операции, выполняемые над рубрикатором, делятся на две группы. К первой группе относятся операции, связанные с изменением структуры рубрикатора: добавление новой рубрики, удаление и перемещение рубрики, заимствование рубрики из другого рубрикатора.

Вторая группа - это операции, связанные с объектами уровня ресурсов (добавление документа в рубрику, добавление ссылки на ИР) и уровня терминологии (присоединение дескрипторной статьи тезауруса, присоединение словника и т.д.).

В четвертой главе также представлены укрупненные алгоритмы, реализующие создание и ведение рубрикатора и протокола, описаны алгоритмы автоматической классификации документов, а также их программная реализация.

Основные результаты и выводы

В рамках исследования информационно-поисковых систем и создания моделей, методов и средств поиска и анализа данных в документальных информационно-аналитических системах получены следующие результаты.

1. На основе анализа процесса информационного поиска введено понятие рабочего пространства пользователя, которое включает информационные и процедурные компоненты, обеспечивающие управляемую навигацию в локальных и распределенных документальных информационных ресурсах.

2. Введено понятие когнитивного рубрикатора, реализующего структурированную форму представления предметной области и включающего систематическую (классификационную схему) и объектную (документы, запросы, словники, статьи тезаурусов) составляющие, что позволяет динамически отражать на уровне сходства и различий когнитивное состояние пользователя по отношению к состоявшемуся знанию.

3. На основе семиотического подхода разработана логическая модель когнитивного рубрикатора как операционного средства рабочего пространства пользователя, интегрально связывающего представления пользователя с информационными ресурсами предметной области на знаковом, понятийном и документальном уровнях.

4. В рамках структуры когнитивного рубрикатора разработана математическая модель классификации, позволяющая динамически соотносить найденные документы с разделами когнитивного рубрикатора пользователя.

5. В результате экспериментальных исследований, проведенных на материале реферативных баз данных научно-технической информации ВИНИТИ РАН и ВНТИЦентра, получены данные, подтверждающие работоспособность предложенного метода классификации документов.

6. Разработан алгоритм применения когнитивного рубрикатора для проведения автоматической классификации документов и описан пример использования КР для проведения комплексного анализа предметной области.

7. Разработан комплекс программных средств, реализующих физическое представление когнитивного рубрикатора и автоматическую классификацию документов, а также интерфейсные средства, используемые для создания и поддержки объектов и процессов рабочего пространства пользователя.

Список опубликованных работ по теме диссертации:

Научные статьи в журналах и изданиях, выпускаемых в Российской Федерации, включенных в перечень ВАК:

1. Борисова Л.Ф., Васина E.H., Максимов Н.В. и др. Системы и технологии распределенной обработки научно-технической информации в ВИНИТИ // НТИ. - Сер. 1, -2003, - №10,1,0 пл. (авт. 0,2 пл.).

2. Васина E.H., Голицына О.Л., Максимов Н.В. Архитектура АИПС: технологии и средства поиска в документальных информационных ресурсах. //НТИ Сер.1,2007, №5,1,1 п.л. (авт. 0,3 пл.).

3. Васина E.H., Голицына О.Л., Максимов Н.В. Вопросы проектирования автоматизированной системы подготовки и выпуска информационных изданий // НТИ. - Сер. 1,1986. -№5,0,8 п.л. (авт. 0,3 п.л.).

Научные статьи и труды в других изданиях:

4. Бебчук М.Б., Буров М.А., Васина E.H., и др. Средства документального поиска в распределенных гетерогенных информационных ресурсах // 7-я Международная конф. НТИ-2007, Сб. трудов. - М.: ВИНИТИ, 2007, 0,7 п.л. (авт. 0,2 пл.).

5. Васина E.H., Голицына О.Л., Максимов Н.В. и др. Документальная информационно-аналитическая система xIRBIS -программа для ЭВМ. Свидетельство №2008611511 от 25.03.2008г. Государственный реестр программ для ЭВМ, 2008г.

6. Васина E.H., Голицына О.Л., Максимов Н.В. Архитектура аналитической информационно-поисковой системы. // Научная сессия МИФИ-2008. 2527 янв. 2008., -М.: МИФИ, 2008, 0,05 п.л. (авт. 0,01 пл.).

7. Васина E.H., Голицына О.Л., Максимов Н.В. и др. Интегральная информационная система поддержки научных исследований и процессов управления научными кадрами // Научная сессия МИФИ - 2009. XXIII выставка-конференция «Телекоммуникации и новые информационные технологии в образовании». Сборник научных трудов. - М.: МИФИ, 2009, 0,05 п.л. (авт. 0,02 пл.).

8. Васина E.H., Голицына О.Л., Максимов Н.В. Оптимизация поисковых стратегий в документальных базах данных. Проблемы и перспективы.// Инновационные технологии когнитивного управления в экономике, менеджменте и образования : межвузовский сборник научных трудов. Сер. «Бизнес-информатика». Вып. 1. - М.: ГОУ ВПО «РЭА им.Г.В.Плеханова», 2008, 0,3 пл. (авт. 0,1 пл.).

9. Васина E.H., Голицына О.Л., Максимов Н.В., Попов И.И., Резни-ченко П.И. Электронный обучающий узел "Информационные ресурсы Internet" //Материалы 5-й международной конференции "НТИ-2000. Информационное общество, информационные ресурсы и технологии телекоммуникации, Москва, 22-24 ноября 2000 г.", М.: ВИНИТИ, 2000,0,1 пл. (авт. 0,02)

10. Васина E.H., Голицына O.JI.., Максимов Н.В., Попов И.И., Резни-ченко П.И. Информационные ресурсы документальных баз данных. // НТИ-96: Международн. конференция. Москва, 20-21 ноября 1996г. - М.: ВИНИТИ, 1996, 0,2 п.л. (авт. 0,05 п.л.).

11. Васина E.H., Партыка T.JL, Попов И.И., Информационные системы бухгалтерского учета: Учеб. пособие. М.:ФОРУМ:ИНФРА-М, 2006, 26,6, п.л. (авт. 5,0 п.л.).

Заказ № 296. Объем 1 п.л. Тираж 100 экз. Отпечатано в ООО «Петроруш». г.Москва, ул.Палиха 2а.тел.250-92-06 www.postator.ru

Оглавление автор диссертации — кандидата технических наук Васина, Елена Николаевна

Введение

СОДЕРЖАНИЕ

Глава 1. Методологические основы проблемно-ориеитированного документаль- 11 ного поиска

1.1. Основная и информационная деятельность

1.2. Объекты и процессы информационного поиска

1.3. Обобщенная схема информационного поиска

1.4. Процедурная модель итеративного поиска

1.5. Интерфейсная модель информационного поиска

1.6. Лингвистические средства представления предметной области

1.7. Информация и информационные ресурсы в процессах генерации знания

1.8. Когнитивный рубрикатор как интегральное средство формирования рабочего 36 пространства

1.8.1. Назначение и основные функции рубрикатора НТИ

1.8.2. Назначение и структура когнитивного рубрикатора

1.8.3. Формализованное представление когнитивного рубрикатора

1.9. Архитектура рабочего пространство пользователя 40 Выводы к главе 1.

Глава 2. Модели и методы систематизации документальной информации

2.1. Модели описания и анализа документальных информационных массивов и 43 потоков

2.2. Методы описания и оценки качества АИПС

2.2.1. Структурная схема АИПС

2.2.2. Критерии оценки АИПС

2.3. Линейная модель индексирования и поиска и ее модификации

2.4. Применение линейной модели к описанию поисковых протоколов

2.5. Линейная модель рубрикатора

2.6. Метод классификации документов с использованием когнитивного рубрика- 58 тора

2.7. Линейная модель рабочего пространства пользователя 67 Выводы к главе

Глава 3 Экспериментальные исследования методов классификации и применения когнитивного рубрикатора рабочего пространства пользователя

3.1. Исследование статистических коэффициентов близости

3.2 Экспериментальное исследование метода классификации

3.3. Обобщенная технологическая схема исследования предметной области с использованием когнитивного рубрикатора Выводы к главе

Глава 4. Средства управления лингвистическими и документальными ресурсами 89 в интегральной информационно-аналитической системе

4.1 Основные функции и компоненты интегральной информационной системы

4.2. Алгоритмы работы с протоколом запроса

4.3. Идентификация объектов в справочнике ресурсов

4.4. Логическая модель когнитивного рубрикатора

4.5. Физическая модель когнитивного рубрикатора

4.6. Алгоритм автоматической классификации

4.6.1. Процедура построения матрицы близости

4.6.2. Процедура классификации документа

4.7. Программные средства ведения КР и классификации 112 Выводы к главе

Введение 2009 год, диссертация по документальной информации, Васина, Елена Николаевна

Актуальность избранной темы обусловлена такими объективными факторами, как резкое возрастание в последние десятилетия общественного и экономического значения информации и информационных технологий. Автоматизированные системы делопроизводства, телекоммуникации и системы обработки данных интегрируются в категорию информационных ресурсов, занимающих одинаковое положение с другими ресурсами предприятия, отрасли, национальной экономики в целом. Управление информационными ресурсами, включающее организацию данных и управление процессами обработки, все более выделяется в отдельную управленческую функцию.

Полнотекстовые БД, доступные как в интерактивном режиме, так и на CD, начиная с 80-х годов, становятся одним из основных видов информационных ресурсов. Тенденция к диверсификации носителей информации и снижению удельной стоимости хранения (разработка систем на CD, методов сжатия информации для передачи и хранения и др.) позволяет прогнозировать продолжение роста количества генерируемых полнотекстовых БД. При создании БД часто применяются средства построения полнотекстовых БД из изображений документов. Основные компоненты процесса - сканирование, сегментация изображений, оптическое распознавание знаков, идентификация схемы объекта и загрузка БД.

Документальные информационные системы образуют один из старейших и важнейших классов систем. Фигурирующие в информационных массивах таких систем полные тексты, рефераты, поисковые массивы, словари и указатели как сами по себе, так и в совокупности с ресурсами, ссылки на которые они содержат, образуют семантическое пространство, построение и исследование которого позволяет, с одной стороны, усовершенствовать поисковые возможности системы, а с другой - осуществлять исследования структуры предметной области как в статическом, так и в динамическом аспектах.

Данный процесс соответствует современному этапу развития информатизации -гуманитарному периоду, характеризующемуся резким возрастанием круга пользователей АИТ и повышением роли интерфейсных и навигационных возможностей соответствующих систем, а также усилением персонального характера компьютера и расширением возможностей пользователя.

Это выражается в интеграции функций администратора, интерактивного пользователя, конечного пользователя и аналитика и является следствием персонального характера деятельности подавляющего большинства современных документальных АИС, «перерастающих» в интегральные информационно-аналитические системы.

Принципиально важным фактором, определяющим направление развития современных информационных систем, является то, что взаимодействие пользователей с информационными ресурсами происходит в режиме «информационного самообслуживания», когда пользователь, по существу, уже не разделяет свою деятельность на информационную и основную. Это заставляет создателей информационных систем все больше внимания уделять развитию функций помощи пользователям, который, работая без помощи посредников, не всегда способен использовать возможности поисковых систем. Пожалуй, одним из самых важных достижений в этой области, является представление результатов поиска. Приведем несколько примеров.

Интеллектуальная поисковая система Nigma [127], автоматически (на основе семантического анализа) кластеризует (группирует) результаты поиска, выдаваемые другими поисковыми системами Интернет (Google, Yahoo, MSN, Yandex, Rambler). Найденные документы разбиваются на кластеры, которые представлены в виде иерархического дерева. С помощью установки фильтра можно отсечь ненужные темы, что облегчает поиск необходимой информации. Просматривая описания кластеров, пользователь выбирает наиболее интересные для углубленного изучения.

Vivisimo (clusty) [122] - еще одна метапоисковая система, использующая другие поисковые системы для предварительного отбора текстовой информации с последующей кластеризацией результатов поиска. Алгоритмы работы vivisimo основаны на использовании стандартной модели работы с ключевыми словами и кластеризации результатов поиска. Группировка предварительно отобранных документов проводится по трем критериям: частота встречаемости ключевых слов в результатах поиска; поисковые системы, в которых были найдены документы;

- доменные зоны (например, com, ru и др.).

Результаты кластеризации по ключевым словам представляются в виде списка пунктов меню, по которым возможна пересортировка результатов выдачи. При отображении документы кластера упорядочиваются по статистике найденных в них ключевых слов.

Аналогичный принцип отображения результатов кластеризации реализован австралийским поисковым сервером Mooter [126], на котором применяется визуальный подход к предоставлению результатов поиска по обрабатываемым запросам путем группировки результатов первичного поиска по категориям.

Другой поисковый сервер iBoogie [123] также группирует результаты поиска, но отображает их в виде, близком к экрану проводника Windows.

Система контент-мониторинга InfoStream [125] применяется для решения задач автоматизированного сбора информации с открытых web-сайтов, ее обработки, систематизации и обеспечения доступа к ней в поисковых режимах. Одним из преимуществ системы по сравнению с традиционными сетевыми информационно-поисковыми системами является наличие аналитического инструментария, который позволяет пользователю в режиме реального времени не только получать результаты поиска, но и формировать дайджесты, строить сюжетные цепочки, анализировать взаимосвязь рубрик, динамику понятий и т.д.

Независимо от формы представления результатов, поисковые системы Интернета выдают список ссылок на найденные страницы. Пользователь при этом вынужден заниматься навигацией по найденным ссылкам, анализом страниц и поиском необходимой информации. Семантические поисковые системы AskNet [121] обеспечивают вывод ответов на запросы пользователей непосредственно на страницу результатов поиска.

В справочно-информационной системе ВИНИТИ [124] вывод результатов поиска осуществляется поэтапно. После проведения поиска формируется сообщение, содержащее текст запроса, дату поиска, имя БД, в которой проводился поиск, сведения о количестве найденных документов и гиперссылку для перехода на просмотр краткой формы описания документов. Это сообщение записывается в историю поиска, которая отражается на экране. После анализа результатов поиска в краткой форме и выбора условий вывода, на экран выводится выбранная форма документов.

В [11] описывается методика авторубрикации, которая используется для распределения результатов поиска по определенным темам в поисково-аналитической системе «Галактика-Зум». Предварительно системой определяются информационные портреты, или ключевые темы, конкретных рубрик - по оригинальной технологии выделения и ранжирования ключевых тем. Затем автоматически происходит классификация документов методом сравнения информационных портретов документа и заданных рубрик.

Таким образом, тенденции развития поисковых систем заключаются в постепенном расширении традиционных функций и активном подключении к поисковым механизмам аналитических возможностей, т.е. в переходе к документальным информационным системам следующего поколения - интегральным информационно-аналитическим системам, которые сочетают функции создания базы данных, анализа ее лексического и документального содержания, синтеза и оптимизации лингвистических структур (словарей, рубрикаторов, тезаурусов), совместно с БД образующих информационную модель предметной области.

В связи с этим является актуальной проблема исследования и моделирования как процессов информационного поиска в документальных информационно-аналитических системах, так и методов и алгоритмов структуризации документальных и лексических объектов информационного пространства пользователя.

Целью исследования является разработка комплекса моделей, алгоритмов, методов и средств систематизации документальной информации, ориентированных на совершенствование технологий и механизмов поиска информации в документальных информационных ресурсах, а также анализа структуры и динамики предметных областей.

Данная цель конкретизируется следующими задачами:

- определение основных принципов функционирования АИПС, ориентированных на задачи анализа информационных потоков;

- системный анализ взаимосвязи информационных объектов в процессах генерации и поиска информации;

- определение понятия и построение модели интегрального рабочего пространства пользователя;

- разработка модели когнитивного рубрикатора предметной области, как основного компонента рабочего пространства;

- разработка программных средств поддержки рабочего пространства пользователя и метода автоматической классификации документов, основанного на применении когнитивного рубрикатора.

Степень разработанности проблемы. Проблемам моделирования поисковых процессов в информационных системах посвящены труды зарубежных ученых Chen Hsinchun, Salton G., Rijsbergen C.J. Среди отечественных ученых, труды которых могут рассматриваться в качестве теоретической базы диссертации, выделяются: Белоногов Г.Г., Гиляревский Р.С., Романенко А.Г., Попов И.И., Максимов Н.В.

Современные достижения информационных технологий ставят новые задачи в области развития возможностей информационных систем, поэтому дальнейшие исследования данного научного направления представляются целесообразными.

Методы исследования. Основные результаты получены и обоснованы с использованием методов теории вероятностей, теории множеств, линейной алгебры, системного анализа и компьютерного моделирования.

Экспериментально-статистической базой исследования послужили данные (базы данных) ВИНИТИ РАН «Информатика», ВНТИЦ «Информационные карты НИР и ОКР» (БД ИК) и «Информационные карты диссертаций» (БД ИКД).

Нормативную базу исследования составили такие стандарты, как ГОСТ 7.77-98 «СИБИД Межгосударственный рубрикатор научно-технической информации. Структура, правила использования и ведения»; ГОСТ 7.74-96 «Информационно-поисковые языки, термины и определения»; ГОСТ 7.0-99 «Система стандартов по информации, библиотечному и издательскому делу. Информационно-библиотечная деятельность».

Теоретическая и практическая значимость работы. Отдельные положения работы представляют собой вклад в теорию и практику информационного поиска, использованы при разработке конкретных прикладных программных комплексов управления документальными информационными ресурсами, в частности, подсистем документальной информационно-аналитической системы xIRBIS1, и могут быть рекомендованы к дальнейшему применению при разработке и развитии документальных информационных систем.

Отдельные положения могут быть использованы в теоретических курсах и лабораторных практикумах в учебном процессе вузов при подготовке бакалавров, дипломированных специалистов и магистров по специальностям «Информационные системы (по областям)» и «Прикладная информатика (по областям)».

Внедрение результатов. На основе результатов, изложенных в диссертации, были разработаны подсистемы Статистического анализа документальных потоков и лексики и Анализа и ведения объектов лингвистического обеспечения программно-информационного комплекса документальной информационно-аналитической системы xIRBIS.

Указанные результаты внедрены в ВИНИТИ РАН, ИНИОН РАН, ВНТИЦентре РФ.

Публикации и апробация работы. По материалам исследований опубликовано 11 печатных работ, в том числе три работы [14, 16, 20] в издании, входящие в момент публикации в Перечень ведущих рецензируемых научных журналов и изданий, в которых должны быть опубликованы основные научные результаты диссертации на соискание ученой степени доктора и кандидата наук, утвержденный Высшей аттестационной комиссией Министерства образования и науки Российской Федерации.

Результаты работы докладывались на следующих научных конференциях:

Международная конференция под эгидой международной федерации по информации и документации (МФД) - НТИ 96. Информационные продукты, процессы и технологии, Москва, 20-21 ноября 1996;

5-я международная конференция НТИ-2000. Информационное общество, информационные ресурсы и технологии телекоммуникации, Москва, 22-24 ноября 2000 г.";

Научно-практическая конференция «Информационные технологии в экономике XXI века», посвященная 100-летию РЭА им. Г.В. Плеханова, Москва, февраль 2006 г.;

1 Документальная информационно-аналитическая система xIRBIS - программа для ЭВМ. Свидетельство №2008611511 от 25.03.2008г. Государственный реестр программ для ЭВМ, 2008г.

7-я Международная конференция. НТИ-2007;

Научная сессия МИФИ-2008. 25-27 янв. 2008;

Научная сессия МИФИ-2009. XXIII выставка-конференция «Телекоммуникации и новые информационные технологии в образовании».

Диссертационное исследование соответствует паспорту специальности 05.25.05 — Информационные системы и процессы, правовые аспекты информатики, пункту 1: Методы и модели описания, оценки, оптимизации информационных процессов и информационных ресурсов, а также средства анализа и выявления закономерностей в информационных потоках.

Объем и структура диссертации. Диссертация состоит из введения, четырех глав, заключения, библиографического списка и приложений. Диссертация содержит 10 таблиц и 47 рисунков. Общий объем работы составляет 139 страниц машинописного текста.

Заключение диссертация на тему "Исследование и разработка моделей и алгоритмов структурно-логической обработки информации в документальных информационно-аналитических системах"

Выводы к главе 4

1. Определена структура протокола, содержащего результаты запроса, и разработаны алгоритмы работы с ним.

2. Разработана логическая модель когнитивного рубрикатора, отражающая представление пользователя о ПрО на знаковом, понятийном и предметном уровнях.

3. Разработан и описан комплекс программных средств, включающий ряд процедур, реализующих интерфейс для работы с лингвистическими и документальными ресурсами (протокол, когнитивный рубрикатор, словник).

4. . Разработаны алгоритмы, реализующие предложенную модель метода автоматической классификации документов. В основу алгоритмов положена совокупность процедур, работающих с матрицей близости, строящейся на основе когнитивного рубрикатора.

ЗАКЛЮЧЕНИЕ

В рамках исследования информационно-поисковых систем и создания моделей, методов и средств поиска и анализа данных в документальных информационно-аналитических системах получены следующие результаты.

1. На основе анализа процесса информационного поиска введено понятие рабочее пространство пользователя, которое включает информационные и процедурные компоненты, обеспечивающие управляемую навигацию в локальных и распределенных документальных информационных ресурсах. Построена линейная модель рабочего пространство пользователя.

2. Введено понятие когнитивного рубрикатора, реализующего структурированную форму представления предметной области и включающего систематическую (классификационную схему) и объектную (документы, запросы, словники, статьи тезаурусов) составляющие, что позволяет динамически отражать на уровне сходства и различий когнитивное состояние пользователя по отношению к состоявшемуся знанию.

3. На основе семиотического подхода разработана модель когнитивного рубрикатора как операционного средства рабочего пространства пользователя, интегрально связывающего представления пользователя с информационными ресурсами предметной области на знаковом, понятийном и документальном уровнях.

4. В рамках структуры когнитивного рубрикатора разработана математическая модель классификации, позволяющая динамически соотносить найденные документы с разделами когнитивного рубрикатора пользователя. Приведена обобщенная схема использования когнитивного рубрикатора для проведения комплексного анализа предметной области.

5. В результате экспериментальных исследований, проведенных на материале реферативных баз данных научно-технической информации ВИНИТИ РАН и ВНТИЦентра, получены данные, доказывающие работоспособность предложенного метода классификации документов. Проведены исследования мер близости, результаты которого позволяют делать выводы о предпочтении использования конкретных мер для предложенного метода классификации.

6. Разработан алгоритм применения когнитивного рубрикатора для проведения автоматической классификации документов и описан пример использования КР для проведения комплексного анализа предметной области.

7. Разработан комплекс программных средств, включающий физическое представление когнитивного рубрикатора, процедуры, реализующие автоматическую классификацию документов, а также интерфейсные средства, используемые для создания и поддержки объектов и процессов рабочего пространства пользователя.

Библиография Васина, Елена Николаевна, диссертация по теме Информационные системы и процессы, правовые аспекты информатики

1. ГОСТ 7.49-84 СИБИД Рубрикатор ГАСНТИ. Структура, правила использования и ведения.- М.: Изд-во стандартов, 1994.

2. Гост 7.74-96 «ИНФОРМАЦИОННО-ПОИСКОВЫЕ ЯЗЫКИ, ТЕРМИНЫ И ОПРЕДЕЛЕНИЯ» http://gsnti -norms.ru/norms/common/doc.asp?0&/norms/stands/774.htm.

3. ГОСТ 7.77-98 СИБИД Межгосударственный рубрикатор научно-технической информации. Структура, правила использования и ведения.- Минск: Изд-во стандартов, 1998.

4. МЕЖГОСУДАРСТВЕННЫЙ СТАНДАРТ ГОСТ 7.0-99 Система стандартов по информации, библиотечному и издательскому делу. ИНФОРМАЦИОННО-БИБЛИОТЕЧНАЯ ДЕЯТЕЛЬНОСТЬ. Термины и определения. Минск, 2000.

5. МЕЖГОСУДАРСТВЕННЫЙ СТАНДАРТ ГОСТ 7.74-96 Система стандартов по информации, библиотечному и издательскому делу. ИНФОРМАЦИОННО-ПОИСКОВЫЕ ЯЗЫКИ. Термины и определения. Минск, 2000.

6. Аветисян Д.О. Проблемы информационного поиска. — М.: Финансы и статистика, 1981.

7. Агеев М.С.Методы автоматической рубрикации текстов, основанные на машинном обучении и знаниях экспертов Дисс. на соискание ученой степени кандидата физ.-мат. наук по спец. 05.13.11.-М.: МГУ, 2004.

8. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика, 1989.

9. Алгоритмы описательной статистики http://alglib.sources.ru/statistics /descriptive.php.

10. Андреев A.M., Березкин Д.В., Морозов В.В., Симаков К.В. Автоматическая классификация текстовых документов с использованием нейросетевых алгоритмов и семантического анализа/ НПЦ «ИНТЕЛТЕК ПЛЮС»- http://www.inteltec.ru/pubHsh/articles/textan

11. Антонов А.В.,. Курзинер Е.С Определение тематически значимых документов в системе галактика-zoom (авторубрикация), Корпорация «Галактика», Москва http://wvvw.dialog-21.ru

12. Барахнин В.Б., Леонова Ю.В., Федотов A.M. К вопросу о формулировке требований для построения информационных систем научно-организационной направленности // Вычислительные технологии. — 2006. Т. 11. — Спец. выпуск С.54-61,

13. Бебчук М.Б., Буров М.А., Васина Е.Н., и др. Средства документального поиска в распределенных гетерогенных информационных ресурсах // 7-я Международная конф. НТИ2007, Сб. трудов. М.: ВИНИТИ, 2007.

14. Борисова Л.Ф., Васина Е.Н., Максимов Н.В. и др. Системы и технологии распределенной обработки научно-технической информации в ВИНИТИ // НТИ. Сер. 1, -2003, - № 10.

15. Васина Е.Н., Голицына О.Л., Максимов Н.В. и др. Документальная информационно-аналитическая система xIRBIS -программа для ЭВМ. Свидетельство №2008611511 от 25.03.2008г. Государственный реестр программ для ЭВМ, 2008г.

16. Васина Е.Н., Голицына О.Л., Максимов Н.В. Архитектура АИПС: технологии и средства поиска в документальных информационных ресурсах. //НТИ Сер.1, 2007, № 5.

17. Васина Е.Н., Голицына О.Л., Максимов Н.В. Архитектура аналитической информационно-поисковой системы. // Научная сессия МИФИ-2008. 25-27 янв. 2008., М.: МИФИ,2008.

18. Васина Е.Н., Голицына О.Л., Максимов Н.В. Архитектура документальных информационно-поисковых систем. // Научная сессия МИФИ-2007. Т2 Технологии разработки программных систем. Информационные технологии. М.: МИФИ, 2007.

19. Васина Е.Н., Голицына О.Л., Максимов Н.В. Вопросы проектирования автоматизированной системы подготовки и выпуска информационных изданий // НТИ. Сер. 1, 1986. -№5.

20. Васина Е.Н., Голицына O.JL, Максимов Н.В. и др. Интегральная информационная система поддержки научных исследований и процессов управления научными кадрами // Научная сессия МИФИ 2009. Сборник научных трудов. - М.: МИФИ, 2009.

21. Васина Е.Н., Голицына O.JL, Максимов Н.В. и др. Организация и поиск информации в среде Internet. Справочно-обучающая система // Научная сессия МИФИ-2005. IX выставка-конференция, 2005.

22. Васина Е.Н., Голицына O.JL, Максимов Н.В. Организация и средства образовательной информационной среды // Научная сессия МИФИ-2005. Сб. научных трудов. В 15 томах. Т. 10. телекоммуникации и новые информационные технологии в образовании. М.: МИФИ, 2005.

23. Васина Е.Н., Голицына O.JL, Максимов Н.В., Попов И.И. Информационные ресурсы и документальные базы данных. Создание, использование, анализ (учебное пособие) М.: РГГУ,- 1997,- 178 с.

24. Васина Е.Н., Голицына O.JL, Максимов Н.В., Резниченко П.И. Документальная АИПС IRBIS. Первое свидетельство о регистрации № 920147 от 28.12.1992г. Государственный реестр программ для ЭВМ, 1992 г.

25. Васина Е.Н., Голицына O.JL, Максимов Н.В и др.Средства и технологии документального информационного поиска // Научная сессия МИФИ-2006. Сб. научных трудов. Т.2. Информационные технологии. — М.: МИФИ, 2006.

26. Васина Е.Н., Голицына O.JL., Максимов Н.В., Попов И.И., Резниченко П.И. Информационные ресурсы документальных баз данных. // НТИ-96: Международн. конференция. Москва, 20-21 ноября 1996г. М.: ВИНИТИ, 1996.

27. Васина Е.Н., Партыка Т.Л., Попов И.И. Информационные системы бухгалтерского учета: Учеб. пособие. М.:ФОРУМ:ИНФРА-М, 2006. 432 с.

28. Гиляревский Р.С., Шапкин А.В., Белозеров В.Н.: Рубрикатор как инструмент информационной навигации СПб.: Профессия, 2008 -352 с.

29. Голицына O.JL Лингвистическое обеспечение документальных информационно-поисковых систем: Учебное пособие.- М.: КОС-ИНФ, Рос.экон. акад.,2008. -173 с.

30. Голицына О.Л. Моделирование и разработка средств и технологий поиска документальной информации. Днсс. на соискание ученой степени кандидата техн. наук по спец. 05.25.05. М.: РГГУ, 2004.

31. Голицына О.Л., Максимов Н.В., Попов И.И. Базы данных: Учебное пособие. М.: Форум: ИНФРА-М, 2003. - 352 с.

32. Голицына О.Л., Максимов Н.В., Попов И.И. Информационные системы: Учеб. пособие. М.: Форум: ИНФРА-М, 2007. - 496 с.

33. ГРНТИ рубрикатор научно-технической информации (редакция 2007 года). http://grnti.ruy

34. Дорожкин A.M. Научный поиск как постановка и решение проблем. Н.Новгород: Нижегородский гуманитарный центр, 1995.

35. Дружинин В.В., Конторов Д.С. Проблемы системологии. — М.: Советское радио, 1976.

36. Дубейковский В.И. Практика функционального моделирования. М.:»Диалог МИФИ», 2004

37. Дюран Б., Одел П. Кластерный анализ. Пер. с англ. Е.З. Демиденко -М.: Статистика, 1977.

38. Информационно-поисковый тезаурус по информатике. /Сост.Пащенко Н.А., Ксенофон-това Е.Б., Скоробогатая В.Ф., научный редактор Черный А.И. М.:ВИНИТИ, 1987.

39. Киселев М.В., Пивоваров B.C., Шмулевич М.М. Метод кластеризации текстов, учитывающих совместную встречаемость ключевых терминов, и его применение к анализу тематической структуры новостного потока, а также ее динамики.

40. Кнут Д.Э. Искусство программирования, том 3, Сортировка и поиск. — 2000, 832 с.

41. Князева Н.Н., Курдюмов С.П. Основания синергетики. М.: КомКнига, 2006.

42. Козачук М.В. Концептуальный анализ текстов в системах автоматической обработки научно-технической информации. Дисс. на соискание ученой степени кандидата техн. наук по спец. 05.25.05. М.: ВИНИТИ, 2002.

43. Крутиков А.Г.: Системный анализ научно-технических нововведений —М.: Наука, 1981.

44. Лукашевич Н.В., Салий А.Д. Представление знаний в системе автоматической обработки текстов //НТИ. Сер.2.- 1997, N3.

45. Максимов Н.В, Голицына О.Л., Тихомиров Г.В., Храмцов П.Б.Информационные ресурсы и поисковые системы: Учебное пособие. М.: МИФИ, 2008. — 400 с.

46. Максимов Н.В. Исследование и моделирование систем управления доступом к гетерогенным информационным ресурсам. Дисс. на соискание ученой степени доктора техн. наук по спец. 05.25.05. -М.: РГГУ, 2001.

47. Максимов Н.В. Компоненты и технологии интерактивного поиска документальной информации. // МФД. 2001, №3.

48. Мандель И.Д. Кластерный анализ. -М.: Финансы и статистика, 1988.

49. Михайлов А.И., Черный А.И., Гиляревский Р.С. Основы информатики. М.: Наука, 1968.

50. Некрестьянов И.С. Тематико-ориентированные методы информационного поиска. Дисс. на соискание ученой степени кандидата физ.-мат. наук по спец. 05.25.05 / С-Пб. гос. унив. Санкт-Петербург, 2000.

51. Николис Г., Пригожин И. Познание сложного. Введение. М.: Едиториал УРСС, 2003.

52. Осовский С. Нейронные сети для обработки информации / Пер. с польского И.Д. Рудин-ского. М.: Финансы и статистика, 2002. - 344 с.

53. Отчет о научно-исследовательской работе по теме:

54. Павлов А.Н., Попов И.И. Экспериментальная оценка качества индексирования // НТИ. 1983. Сер. 2, №9. С. 13-20.

55. Попов И.И. Информационные ресурсы и системы: реализация, моделирование, управление. М.: ТПК "Альянс", 1996. 408 с.

56. Попов И.И. Моделирование и оптимизация автоматизированных информационных систем и технологий управления документальными информационными ресурсами. / Дисс. на соискание уч. степени доктора техн. наук. М.: РГГУ, 1996.

57. Попов И.И. Оценка и оптимизация информационных систем. М.: МИФИ. 1981. 86 с.

58. Попов И.И., Моделирование и оптимизация автоматизированных документальных информационных систем (учебное пособие) М.: РГГУ. 1996. 128с.

59. Попов И.И., Попов С.В. Об одном подходе к оценке технической эффективности ИПС и ее анализу //НТИ. 1979. Сер. 2.№6. С. 14-21.

60. Попов И.И., Романенко А.Г. Моделирование информационных систем, теория и приложения // Итоги науки и техники. Сер. "Информатика". - Том. 5. — М.: ВИНИТИ. -1981.-237 с.

61. Попов И.И., Романенко А.Г., Сумароков Л.Н. Автоматизированные информационные системы и сети (учебное пособие). М.: МИФИ. 1978. - 118 с.

62. Попов И.И., Храмцов П.Б. Распределение частоты встречаемости терминов для линейной модели информационного потока// НТИ. 1991. Сер. 2. № 2. С. 23-27.

63. Редкина Н.С. Формализованные методы анализа документальных информационных потоков «Библиосфера», 2005, №2, с. 51-59.

64. Рубрикатор ВИНИТИ. http://scs.viniti.ru/rubtree/main.aspx?tree=RV

65. Сахал Д. Технический прогресс: концепции, модели, оценки М: Москва, 1985.

66. Сёмкин Б.И., Двойченков В.И. Об эквивалентности мер сходства и различия // Исследование систем. Владивосток: ДВНЦ АН СССР, 1973. С. 18-43.

67. Солтон Дж. Динамические библиотечно-информационные системы. М.: Мир, 1979.

68. Урманцев Ю.А. Общая теория систем: Состояние, приложения и перспективы развития. Сборник «Система, Симметрия, Гармония", М., Мысль, 1988, с.38-124.

69. Чернавский Д.С. Синергетика и информация. М.: Едиториал УРСС, 2004.

70. Щедровицкий Г.П. Проблемы логики научного исследования и анализ структуры науки / Из архива Г.П.Щедровицкого. Т. 7. М., 2004.

71. Эшби У.Р. Введение в кибернетику. — М.: КомКнига, 2006.

72. Яблонский А. И. Модели и методы исследования науки. Серия: Философы России XX века. М.: Едиториал УРСС, 2001.

73. Brakel P. A. van. Criteria for Evaluating a General Encyclopedia on CD-ROM, with Special Reference to Grolier's Multimedia Encyclopedia // S. Afr. J. Libr. and Inf. Sci., 1992. V. 60. №4. P 224-231.

74. Brill, E., 'A simple rule-based part of speech tagger', Proceedings of the Third Annual Conference on Applied Natural Language Processing, ACL, 1992, pp. 152-155.

75. Buckley C., Allan J., Saltan G. Automatic routing and retrieval using SMART: TREC-2. Inf. Proc.& Manag. V. 31, №3, 1986, p. 315-326.

76. Cheeseman, P., Kelly, J., Self, M., Stutz, J., Taylor, W., and Freeman, D., 'AutoClass: A Bayesian classification system', In Proc. of 5th Int. Conf. on Machine Learning, 1988, pp. 5464.

77. Cutting, D. R., Pedersen, J. O., Karger, D., and Tukey, J. W., 'Scatter/gather: A cluster-based approach to browsing large document collections',In Proceedings of 15th Annual ACM-SIGIR, 1992, pp. 318-329.

78. Dumais S., Lewis D., Sebastiani F. Report on Workshop on Operational Text Classification Systems (OTC-02) // SIGIR-2002- Tampere, Finland, 2002.

79. Fuhr N. Models for Retrieval with Probablistic Indexing // Inf. Process, and Manag., 1989. V. 25. №1.P 55-72.

80. Goodall D.W. Numerical classification // Handbook of Vegetation Science. Pt. 5. The Haque: Dr. W.Junk, 1973. P. 105-156.

81. Haykin, S. Neural Networks: A Comprehensive Foundation/ — New York: Macmillan College Publishing, 1994.

82. Hofmann, Т., 'Probabilistic Latent Semantic Indexing', Proceedings of the 22nd Annual ACM Conference on Research and Development in Information Retrieval, 1999, pp. 50-57.

83. INIS: Thesaurus. IAEA-INIS (Rev.21) Vienna: IAEA, 1999.

84. Joachims T. A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization. // Proceedings of ICML-97, 14th International Conference on Machine Learning. — 1996.

85. Karypis, G., Eui-Hong (Sam) Han, 'Concept Indexing A Fast Dimensionality Reduction Algorithm with Applications to Document Retrieval & Categorization', University of Minnesota, Department of Computer Science, Technical Report 00-016, 2000.

86. Kupiec, J., 'Robust Part-of-speech tagging using a hidden Markov model', Computer Speech and Language 6, 1992, pp. 225-242.

87. Lewis D., Sebastiani F. Report on the Workshop on Operational Text Classification Systems (OTC-Ol) // SIGIR-2001 — New Orleans, 2001.

88. Losee Robert M. An analytic measure predicting information retrieval system performance. Inf. Process. andManag. V.27, № 1, 1991, pp. 1-13.

89. Marchetti P. G., Belkin N.J. Interactive Online Search Formulation Support // 12th Nat. Online Meet. New York, May 7-9, 1991: Proc. / Medford (N. J.). 1991. P 237-243.

90. Maron M.E. Probabilistic design principles for conventional and full-text retrieval systems. // Inf. Process, and Manag., 1988, 24, 3.

91. Miyamoto S. Application of rough sets to information retrieval // J. of the Amer. soc. for inform, science Vol. 49, N 3. P. 195-205.

92. Mohan К. C. Free-text retrieval systems: R&D in information retrieval // J. Sci. and Ind. Res., 1993, 52, №5, pp. 338-349.

93. PolyAnalyst data/text mining system. User manual, http://www.megaputer.com.

94. Radecki Tadeusz. Probabilistic methods for ranking output documents in conventional Boolean retrieval systems. Inf. Process, and Manag. V 24, N 3, 1988.

95. Ravin, Y. and Leacock, C. (editors), 'Polysemy: Theoretical and Computational Approaches', New York: Oxford University Press, 2000.

96. Rieck K., Laskov P. and Muller K.-R. Efficient algorithms for similarity measures over sequential data: A look beyond kernels. In Proc. DAGM, September 2006.

97. Rijsbergen van, C. J., 'Information Retrieval', London, 1979.

98. Robertson S. E.; Beaulieu M. Research and evaluation in information retrieval. J. Doc. Y. 53, № 1, 1997, P. 51-57.

99. Rousseau R. Use of an Existing Thesaurus in a Knowledge Based Indexing and Retrieval System // Ann. Libr. Sci. and Doc., 1991. V. 38. №4. P 127-130.

100. Salton G., Buckley C. Term-Weighting Approaches in Automatic Text Retrieval. Information Processing and Management, 1988, pp. 513-523.

101. Salton G., Zhang Y. Enhancement of text representations using related document titles. Inf. Proc.& Manag. Y. 22, №5, 1986, p. 385-394.

102. Shaw W. M. Retrieval expectations, clusterbased effectiveness, and performance standards in the CF database // Inf. Process, and Manag., 1994, 30, №5, pp.711-723.

103. Sparck J. K. A Statistical Interpretation of Term Specificity and its Application in Retrieval//Doc. Retriev. Syst. 1988. P 132-142.

104. Sparck J.K. The way forward in information retrieval. ELSNews, june, 1997, P. 12-13.

105. Spink A. Study of interactive feedback during mediated information retrieval // J. of the Amer. soc. for inform. Science, 1997, Vol. 48, N 5. P. 382-394.

106. Spink A., Saracevic T. Interaction in information retrieval: selection and effectiveness of search terms // J. of the Amer. soc. for inform. Science, 1997, Vol. 48, №8. pp.741-761.

107. Tenopir C. Online information hunting //J. Amer. Soc. Inf. Sci., 1993, 44, №6, pp.365367.

108. Tenopir C., Shu Man Evena. Magazines in full text: uses and rearch strategies , Online Rev., V.13, № 2,1989, p. 107-118.

109. Ukkonen, E., 'On-line construction of suffix trees', Algorithmica, 14(3), September 1995, pp. 249-260.

110. Wilkinson R., Hingston P. Using the Cosine Measure in a Neural Network for Document Retrieval: ACM/SIGIR Conf. Res. and Dev. Inf. Retriev., Chicago, 111., Oct. 13-16, 1991 // SIGIR Forum. 1991. V. Spec. Issue. P 202-210.

111. Yang Y. An Evaluation of Statistical Approaches to Text Categorization. / Journal of Information Retrieval, 1999 V.l - pp. 67-88.

112. Yang Y., Liu X. A re-examination of text categorization methods. // Proc. Of Int/ ACM Conference on Research and Development in Information Retrieval (SIGIR-99), 1999 pp. 4249.

113. Yang Y., Pedersen J. A comparative study on feature selection in text. categorization. // In Proc. Of ICML -97, 14th International Conf. On machine Learning Nashville, USA, 1997-pp. 412-420.