автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Моделирование и оптимизация автоматизированных информационных систем и технологий управления документальными информационными ресурсами
Автореферат диссертации по теме "Моделирование и оптимизация автоматизированных информационных систем и технологий управления документальными информационными ресурсами"
На правах рукописи
ПОПОВ Игорь Иванович
МОДЕЛИРОВАНИЕ И ОПТИМИЗАЦИЯ АВТОМАТИЗИРОВАННЫХ ИНФОРМАЦИОННЫХ СИСТЕМ И ТЕХНОЛОГИЙ УПРАВЛЕНИЯ ДОКУМЕНТАЛЬНЫМИ ИНФОРМАЦИОННЫМИ РЕСУРСАМИ
Специальность: 05.25.05 - Информационные системы и процессы
АВТОРЕФЕРАТ
диссертации на соискание ученой степени доктора технических наук
Москва - 1996
Работа выполнена в Российском Государственном Гуманитарном Университете.
Официальные оппоненты: - доктор технических наук, профессор
Полтев А.А.;
- доктор технических наук, профессор
Квасницкий В.Н.;
- доктор технических наук, профессор
Кулябичев Ю.П.
Ведущая организация - Центральный Научно-исследовательский институт управления, экономики и информации Минатома РФ (ЦНИИАтоминформ)
Защита состоится ,43,, _ Л-съ^Л_1996 г
в "У ( часов на заседании диссертационного совета Д 064.49.03 в Российском Государственном Гуманитарном Университете по адресу 125267, г. Москва, Миусская пл., 6. С диссертацией можно ознакомиться в библиотеке РГГУ.
Автореферат разослан " ¿Ь-^ЪуРс'лЛ^С ^993 г_
Ученый секретарь диссертационного совета
к.т.н., доцент
Меркулов
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
В последние 10-летия резко возрасло общественное и экономическое значение информации и информационных технологий. Автоматизированные системы делопроизводства, телекоммуникации и системы обработки данных интегрируются в единое понятие информационных ресурсов, занимающих одинаковое положение с другими ресурсами предприятия, отрасли, национальной экономики в целом. Управление информационными ресурсами, интегрирующее организацию информации и управление процессами обработки, все более выделяется в отдельную управленческую функцию. В Проекте Закона Российской Федерации об информации, информатизации и защите информации, целью которого является регулирование правоотношений в области формирования и использования информационных ресурсов РФ, создание и использование перспективных информационных технологий, определение порядка защиты информации и прав субъектов, участвующих в информационных процессах и информатизации, установление гарантии права на информацию, значительное место уделено проблематике организации управления информационными ресурсами.
Актуальность проблемы. С наболее общих позиций информационный ресурс (ИР) может быть определен как вся накопленная информация об окружающей действительности, зафиксированная на материальных носителях и в любой другой форме, обеспечивающей ее передачу во времени и пространстве между различными потребителями для решения научных, производственных, управленческих и других задач.
Важнейшим видом информационных ресурсов становится за последние 20 лет широкий круг общедоступных БД, предлагаемых сегодня службами, основанными на больших ЭВМ (Host Services). При этом появление и развитие в последние 10-летия сетей таких сетей как ARPANet, NSFNet, и прежде всего, Internet, обеспечивает новые пути и средства доступа к этим БД а также другие виды услуг, которые называют сетевыми ИР - электронная почта, конференции и пр.
Выпуск БД на компакт-дисках (CD/ROM), которые появились на рынке в 1986 г.также образует значительный рынок ИР. Обычно БД
на CD представляэт собой интегрированный комплекс, включающий данные и программы для их поиска. Перспективность БД на CD/ROM в частности, состоит в том, что одним из препятствий, мешающих использованию сетевых ИР в развивающихся странах, является слабая инфраструктура связи. Использование БД на CD позволяет обойти это затрудение и обеспечить доступ к мировым информационным ресурсам.
Полнотекстовые БД, доступные как в интерактивном режиме, так и на CD/ROM, начиная с 80-х годов становятся одним из основных видов ИР. Устойчивая тенденция к диверсификации носителей информации и снижению удельной стоимости хранения позволяет прогнозировать продолжение роста количества генерируемых полнотекстовых (ПТ) БД. Известно значительное количество программных средств и оболочек, ориентированных на доступ к ПТ БД, в том числе с использованием сетей: ESA-QUEST FIND/2, STAIRS/AQUARIUS, FreeBase, ViewStation Production Toolkit (Interleaf). TEXT-SR, NDLB , ADAPT, BRS/SEARCH, BASIS, AskSAM, DowQUEST, ANNLOD, IRBIS и многие другие. Среди пользовательских интерфейсов, ориентированных на работу с полнотекстовыми БД, важной компонентой становятся гипертекстовые системы. В гипертекстовых системах хранятся документы, организованные в виде сети, что позволяет связывать разные документы (или фрагменты документа). В последние годы разработано большое число коммерчески доступных гипертекстовых систем: Guide (фирма OWL International) для ПЭВМ IBM PC/AT и PS, Hyperdoc для IBM PC, Macintosh или UNIX. HyperCard для ПЭВМ Apple. Business Filevision, ArchiText, Hyperties (Hypertext Interactive Encyclopedia System), и др. ■ •
Предметом настоящей работы являются документальные информационные ресурсы, определяемые как информационные массивы и потоки полнотекстовых и близких к ним (реферативных) документов, представленные, как правило, в машиночитаемой форме, в том числе в виде баз данных (организованной совокупности файлов), рассматриваемых совместно со средствами доступа к ним.
Под информационными процессами понимаются операции по созданию и преобразованию ИР, типа объединения сообщений в потоки (массивы), преобразования потоков, сообщений. Информационная де-
ятельность определяется как совокупность всех информационных процессов, независимо от организационных форм ее реализации, в которой можно выделить рабочие процессы и функции управления, при этом последние предполагают выработку решений по параметрам информационных процессов, что и рассматривается как технологии управления ИР. Информационные системы определяются как формы информационной деятельности, организационно обособленные от конечного потребителя ИР.
Совокупность процессов создания; модификации, распределения информационных ресурсов рассматривается на различных уровнях -макроуровне, включающем рассмотрение полного (замкнутого) цикла основной и информационной деятельности в процессе информационного обмена, среднем, описывающем отдельные звенья (незамкнутые) информационных процессов, образующих системы информационного обслуживания и на локальном (отдельный процесс, система, АИПС).
Замкнутый цикл включает использование информационного ресурса в процессе основной деятельности, создание новой информации в качестве основного или побочного продукта, а также совокупность процессов незамкнутого цикла, или следующие основные этапы и задачи:
1). производство баз данных - определение предметной области, базирующееся на анализе и классификации документов и /или потребителей информации); выбор сектора информационного рынка для приобретения и распространения ИР; определение типа БД -текстовая (в т.ч. полнотекстовая), табличная и пр.; определение структуры документа (записи) БД; выбор программных продуктов; создание массива документов в машиночитаемой форме; индексирование документов; создание дополнительных справочных информационных массивов;
2). организация интерактивных систем либо локальных БД -определение круга пользователей, координация обслуживания пользователей с другими аналогичными службами, либо разделение рынка услуг на соответствующие сектора; выбор внешней базы данных (или множества БД); выбор структуры (схемы) документов (для каждой внутренней БД); выбор и настройка, либо самостоятельная разработка программного продукта (оболочки) для реализации АИПС, вы-
бор физической структуры БД;
3). функционирование (эксплуатация) информационно-поисковой системы (систем):
- задачи администратора БД: изучение информационных потребностей и корректировка предметной области, структуры документа,. логической и физической структуры внутренней (внутренних) БД, перечня используемых внешних БД; модификация (развитие, замена) программной оболочки и/или пользовательских интерфейсов к БД, внедрение дружественных пользовательских интерфейсов;
- задачи конечного пользователя: изучение тематической, логической, лексической структуры внутренней БД; модификация, оптимизация запросов с целью достижения максимальной эффективности поисковых операций.
Анализ перечисленных задач показывает, что с точки зрения управления информационными ресурсами они могут быть разделены на три уровня:
- выбор информационных рынков для реализации спроса или предложения информации, подключение к информационным потокам, конечным или промежуточным потребителям информации;
- преобразования информационных потоков, отбор релевантных определенным информационным потребностям элементов потоков (документов, сообщений);
- преобразование элементов информационных потоков (сообщений, документов, запросов).
Решение указанных задач требует разработки теоретических положений и практических рекомендаций, позволяющих описывать, анализировать, оптимизировать соответствующие информационные процессы. Необходимо учитывать наблюдающееся возрастание объема БД - количества документов, разнообразия, объема, усложнения структуры. Эти факторы предполагают повышение степени автоматизации информационной деятельности и управления ИР на всех уровнях, при этом важную роль играет моделирование.
Анализ разработанных за последние 10-летия моделей показывает, что, несмотря на множество отличий, они могут быть разбиты на два больших независимых класса - лексико-семантические модели, предназначенные для формализации процессов аналитико-синте-
тической обработки текстов, классификации и индексирования документов , использующие лексический, синтаксический, семантический анализ, принципы математической лингвистики; и статистические модели, формализующие процессы адресации потоков документов и запросов, размещения информационных массивов, использующие методы теории массового обслуживания, стохастического математического программирования, потоков в сетях, управления запасами и т.п.. Излишняя глубина семантического моделирования в первом случае и отсутствие семантики во втором вызывает необходимость разработки некоторых общих принципов и теоретических основ се-мантико-статистического моделирования документальных систем, которые, во-первых охватывали бы максимальное количество типов и уровней информационных процессов и технологий управления ИР, а во-вторых - были бы работоспособны с позиций инженерного применения при реализации конкретных систем.
Целью работы является создание методологии математического моделирования и оптимизации документальных информационных систем, разработка комплекса математических методов, моделей, критериев и их применение для решения практических задач проектирования и анализа информационных систем и комплексов баз данных.
Научная новизна. В результате проведенных исследований разработаны теоретические основы, модели, критерии и методы оценки и оптимизации информационных систем и технологий управления ИР.
Впервые разработаны:
- математический аппарат описания элементарных и комплексных объектов, процессов и систем документальных информационных ресурсов, использующий семантико-статистический подход, отличающийся универсальностью от ранее известных и раздельно применявшихся семантических, статистических и детерминированных линейных моделей и являющийся обобщением теоретико-множественных и линейных моделей описания информационных процессов в документальных системах. Рассмотрены пределы применимости каждого типа моделей, показана сопоставимость результатов, полученных с их использованием. Теоретико-множественные модели отличаются от ранее известных тем, что используют понятия профильного информационного потока, оператора формирования и операций над операторами, линей-
ные модели позволяют получить ранее неизвестные количественные зависимости.
Предложены формальные описания операций над информационными по токами, их элементами и процессами. Получены количественные оценки информационных потоков и процессов, позволяющие проводить их анализ, ставить оптимизационные задачи. Предложенный аппарат позволяет в рамках единых понятий описать и проанализировать такие ранее разрозненные результаты, как модель роста словаря АИПС, закономерности рассеяния документальных потоков, критерии оценки АИПС и рабочие характеристики, провести оценку структур тезаурусных статей и парадигматических связей терминов, оценить различительную способность терминов и фрагментов текста документа;
- модели описания элементарных и сложных информационных процессов и систем, б:- • -ующиеся на.предложенном аппарате и охватывающие различные уровни: глобальный уровень - контур информационного обмена в целом, связывающий исходную информацию и результаты основной деятельности, локальный уровень - модели АИПС пакетного и диалогового поиска, модели среднего уровня, рассматривающие разомкнутые системы информационного обслуживания. Разработаны и практически апробированы модели, базирующиеся на аналитическом, вычислительном и имитационном принципах, в том числе линейные вероятностные модели диалога пользователя с системой, исследованы процессы и стратегии модификации запросов, критерии сходимости, поведение критерия качества поиска. Отличительной особенностью моделей глобального уровня является рассмотрение информационного обмена как результата взаимодействия самостоятельных организационных элементов сложной системы;
- система критериев оценки эффективности информационных ресурсов и систем, отличительной особенностью которых является использование понятия экономии информационной деятельности, в то время как обычно используются меры расстояния между множествами выданных и релевантных документов, включающая частные, интегральные, рабочие и обобщенный критерии. Частные критерии рассматриваются как координаты построения рабочих характеристик АИПС, в работе предложены новые координаты. Интегральные крите-
рии подразделяются на искусственные (свертки частных критериев) и естественные; предложен новый естественный критерий.
Впервые разработана вероятностная модель информационных систем, приводящая к обобщенному критерию, который определяет поведение частных и интегральных критериев, позволяет проанализировать факторы качества информационных систем. Рабочие критерии (вероятность ответа, линеаризованные критерии) предназначены для постановки конкретных задач оптимизации.
- классификация, постановка и анализ оптимизационных задач управления ИР на глобальном и среднем уровнях описания. Введенные обобщенные понятия идеальных, оптимальных, пустых информаци онных процессов позволяют систематизировать и упорядочить оптимизационные задачи на глобальном и среднем уровнях описания. При этом выделены задачи оптимизации системы информационного обмена в целом, информационной деятельности в целом, информационных систем и потребителей-поставщиков информации. Для решения сложных оптимизационных задач в условиях неопределенности и большой размерности предложено воспользоваться принципами теории иерархических систем, или координации информационной деятельности. Рассмотрен ряд постановок задач координации применительно к различным видам информационного обслуживания.
Достоверность полученных результатов, адекватность и применимость моделей и методов подтверждается путем сопоставления результатов моделирования с экспериментальными данными, с использованием статистических критериев, сравнительным анализом критериев, методов, моделей, алгоритмов, как разработанных автором, так и другими исследователями, положительным эффектом применения выработанных рекомендаций при разработке конкретных систем.
Методы исследования. Основные результаты получены и математически обоснованы с использованием методов конечной математики, теории вероятностей и математической статистики, линейной алгебры, теории иерархических систем, вычислительного и имитационного моделирования.
Внедрение результатов. На основе применения моделей были разработаны:
- принципы оптимизации структуры документальной БД и реше-
ния задач администратора БД по планированию и организации работ при создании и поддержки локальной БД коллективного пользования на предприятии, методы оценки способов автоматического индексирования документов (реализовано в НЦ "Курчатовский Институт");
- предложения по оптимизации структуры полнотекстовых документальных БД на логическом и физическом уровнях, созданию множества взаимодополнительных пользовательских интерфейсов к полнотекстовой БД, впервые реализованы в Интегральном банке законодательной информации ЛШиБ;
- документально-лексическая информационная база, с впервые предложенной структурой, включающей тезаурус как БД или логический файл, что позволяет реализовывать как обычные, так и ассоциативные и гипертекстовые стратегии поиска, проводить исследования статистических закономерностей документальных информационных-ресурсов (недоступных или затруднительных для исследования в рамках БД традиционной структуры);
- документально-лексическая и фактографическая отраслевая система по спецвидам (стандарты, ТУ и пр.) НТИ, используемая в отраслевом планировании и для обслуживания предприятий отрасли;
- рекомендации по специализации и размещению автоматизированных информационных с " ;дов отрасли.
Указанные результг.:ы внедрены в РНЦ "Курчатовский институт", ЦНИИАтоминформе, Информэлектро, ГДИВЦ ВВЦ(ВДНХ), МИФИ. МИСИ. РГГУ,
Теоретическая ценность. Разработанные модели позволяют сделать рекомендации по следующим перспективным направлениям дальнейших исследований:
1. Разработка и исследование линейных семантико-статисти-ческих моделей, описывающих диалоговые процессы и навигацию в гипертекстовых структурах, созданных для полнотекстовых БД, , по аналогии с рассмотренными линейными моделями;
2. Исследование динамических процессов в больших информационных системах, с использованием предложенных моделей описания глобальных систем информационного обмена, состоящих в развитии информационных профилей элементарных информационных систем.
3. Использование принципов документально-лексических БД для повышения эффективности информационного поиска, . проведения исс-
ледований стратегий поиска и алгоритмов навигации в БД, сравнительный анализ эффективности использования тезаурусов различной структуры для модификации запросов.
Практическая ценность. Разработанные в диссертации математические методы, критерии, модели и алгоритмы ориентированы на решение практических задач разработки документальных баз данных, выработки предложений по оптимизации структур документальных БД, их размещения и организации взаимодействия с пользователями. Указанные результаты могут быть использованы разработчиками программных оболочек информационных систем, администраторами документальных БД, пользователями систем. Разработанные на основе полученных в диссертации результатов базы данных и программные средства могут применяться при информационном обслуживании.
Результаты диссертационной работы были использованы в учебном процессе МИФИ, МИСИ, РГГУ в курсах лекций "Моделирование информационных систем", "Программирование информационных систем". "Организация и планирование НИР и НИИ", "Банки данных в САПР", "Специальные информационные системы", "Технические средства и технологии АИС", "Управление информационными ресурсами", при выполнении лабораторных работ, проведении семинарских занятий и домашних заданий, а также в курсовых и дипломных студенческих работах, отражены 5 учебных пособиях и методических разработках.
За результаты использования документально-лексических БД в учебном процессе МИФИ в составе "Учебно-научного комплекса по современным информационным технологиям", автор награжден Бронзовой медалью ВДНХ в 1985 г., за разработку и практическое внедрение Интегрального банка данных законодательной информации JURIUS - Серебрянной медалью ВДНХ в 1989 г.
Апробация работы. Результаты диссертации докладывались и обсуждались на следующих семинарах, конференциях и симпозиумах:
- Конференции с международным участием "НТИ-95. Информационные продукты, процессы, технологии", Москва, ВИНИТИ, 19-20 октября 1995 г.
- Всероссийской конференции "Мультимедиа и информационные системы". Москва. РГГУ, 23-26 января 1995 г.
- Международной . конференции "East-West Human Computer
- 12 -
Interaction 94" Царское село, август 1994 г.,
- Научно-методической конференции "Buisiness Tools" (Москва, Pacific Coast University, Moscow Branch), Москва, июнь 1993 г.,
- Всероссийском семинаре "Фонды и базы данных научно-технической информации", Москва, ЦНИИАтоминформ, 1993,
- Международной конференции "2-nd East-West International On-line information meeting", Москва, МЦНТИ, 30 сент.-2 окт. 1992 г.
- 32-й научной конференции МИФИ, Москва, 2-4 февраля 1987г.,
- Научно-технической конференции "Проблемы создания и применения диалоговых систем в АСУ", г. Таллин, сентябрь 1984г.,
- Московской городской школе молодых ученых и специалистов "Автоматизация информационных процессов и систем", Софрино. 22-25 мая, 1984 г.,
- Ш-й конференции "Диалог человек-ЭВМ" ("Диалог-83"), 5-7 июля 1983г., п. Протвино.
- 1Х-м, Х1-м, ХП-м, XIII-M научных семинарах "Системные исследования ГАСНТИ", (г. Ереван, 17-20 апреля 1979г., г. Алма-Ата, 13-17 октября 1980, г. Душанбе 27-23 октября 1981, г. Тбилиси, 23-26 ноября 1982г.),
- Первом Советско-Американском симпозиуме по экономической эффективности информационного обслуживания, г.Ленинград, июнь 1975г..
- 25-й. 26-й, 28-й научных конференциях МИФИ (г. Москва, 2-5 января 1973г., 1-7 июня 1974 г., ЗОянв.-1февр. 1979г.).
Публикации, отчеты. По теме диссертации опубликовано 40 научных работ, ■ в том числе монография, 5 учебных пособий. Результаты исследований отражены также в 5 научных отчетах, выполненных в МИФИ и 2-х отчетах ГДИВЦ ВДНХ (ВВЦ).
Структура и объем работы. Диссертационная работа состоит из введения, пяти глав, заключения и приложения и содержит 271 страниц текста, 54 рисунка, 16 таблиц.
СОДЕРЖАНИЕ РАБОТЫ
В первой главе рассмотрены основные уровни описания, анали-
за, оптимизации (локальный или микро-, средний, глобальный или макро-) систем управления информационными ресурсами и ИС, а также разработан математический аппарат моделирования информационных процессов.
В теоретико-множественном описании документы (сообщения) или элементы потока представляются множествами лексических.единиц. Вводятся понятия универсального словаря D, подмножествами которого являются любые документы 1 , а также универсального массива (потока) L , содержащего все сообщения:
L =(1 ____,1.....,1 ), 1, е L„ ,для всех к, причем |L l=n .
oí к п к о Г 1 о 1 о
Универсальный массив Lq в линейном представлении есть матрица размерности Dxn :
0 f 1. если ыи термин
Ч> = <ЬиЛ = 1.2.....D к = ,.2....„0. ТИСЛИ йёт.Д0*НТ
Рассматриваются количественные характеристики потоков, определяются матрицы
документ-документ 5 = (5*Km)n0 х n0= L0TxL0-
термин-тершн К = (*1;))DxD = Ц,ХЦ,Т.
вероятностей совместного появления терминов в LQ (ассоциативная матрица вероятностей -АМВ) Р = (Р ) (Р = К, /п ),
1 J D X D 1 J U
ковариационная cov = (covu)DxD = СРД д-Р4 -P., )DxD.
Вводятся в рассмотрение случайные величины: 1 - длина случайно выбранного сообщения; 5* - число общих терминов в случайно выбранной паре сообщений (плотность потока в первом приближении).
Математическое ожидание и дисперсия распределений 1 и б*:
D D D D D D
1 = ^MtbJ = б^ = ^I.UVVV =iMiC0Vir
=lPi: 62(6) - 1 Д(Рп - Pi'P^- (1)
Отсюда вытекают следующие свойства АМВ Р:
D _ D D -
Z Р = 1 ; Z2P = I2 + б2 . Í=ii • 1=1j=i 13 1
Вводятся понятия простейших потоков, используемые в дальнейшем при анализе и оценке информационных процессов. Поток первого типа (зипергеометрический информационный поток - ГИП) об-
разуется из сочетаний по одному и тому же числу (1) терминов из словаря D. Второй тип - биноминально-пуассокоеский информационный поток (БПИП) характеризуется тем, что термины в нем появляются независимо. В этом случае матрица Р удовлетворяет условию Р = Pj'Pj (KJ). длина документа подчинена биномиальному распределению, а соотношения для моментов распределений длин и пере-ce4egnñ документов принимают вид^
1 fi^-JjPjd-P,); 6* -JjPÍ2: 6z(5)=1Z1P1z(l-P1e). (2)
Математический аппарат описания информационных процессов включает теоретико-множественные (преобразования потоков) и линейные (преобразования сообщений) компоненты.
Теоретико-множественные модели используют понятия информационного профиля, сообщения, степени взаимной релевантности (близости) профилей, степени взаимной релевантности сообщений, релевантность профиля сообщению.
Профильный информационный поток LA представляет собой модель реально существующих потоков/массивов документов, сгруппированных по тематической близости. Процедура (критерий) формирования профильного потока LA имеет вид: .
lt е La если | lj ПА | > а ; где А - информационный профиль - подмножество D, а - пороговое значение, представляющее собой критерий вхождения, сообщения в La.
Пара объектов [А, а] ([В, (3] и пр.), состоящая из информационного профиля и критерия отбора, является элементарным оператором формирования профильного потока, среди которых могут быть выделены: пустой оператор (0), или задерживающий все сообщения; тождественный (единичный) оператор 1, не изменяющий потока; оператор случайной выборки сообщений из входного потока (¡i).
Над операторами задаются отношения порядка (равенства и вхождения). Вводятся операции объединения (U) и сцепления (#) операторов V[а], V[b]. Объединению операторов в практике соответствует параллельное подключение процессов формирования потока к некоторой входной совокупности сообщений, сцеплению - последовательное сочленение операторов формирования, например, комплектование базы данных, поиск в базе данных и т. д.
Рассматривается количественная форма описания потоков и операторов. Элементарному информационному массиву, соответствует число сообщений в массиве - f, потоку - интенсивность X.
Элементарный оператор V[a] формирования потока в количественной форме есть вероятность v[a] того, что сообщение, входящее в LQ, войдет в выходной поток LA. Для случая гипергеометрического профильного потока количественная форма оператора формирования строится аналитически. То же самое можно сказать об операциях объединения и сцепления элементарных операторов, величине условного среднего значения релевантности сообщения профилю.
Плотность профильного потока LA (среднее пересечение 5*) зависит от а и возрастает с увеличением жесткости отбора при формировании профильного потока. Аналогично показывается, что среднее пересечение сообщений, выбранных из двух различных профильных потоков La, Lb возрастает с величением степени близости профилей S=|АПВ|. АМВ Р в данном случае принимает блочный вид РА, ее элементы зависят от порогового значения а.
Линейные модели индексирования и поиска используют бинарное векторное представление документов и запросов:
Структура тезауруса в данном случае отображается бинарной матрицей размерности DxD:
„ ,„ , „ /1, если о-й термин входит в
i j dxd • пРичем = | 8ЛОес!пиУнетТ'Ю 1_Г° дескРИПТ0Ра
Определяются операции укрупнения и разукрупнения тезаурусов, а также упорядочение тезаурусов. Индексирование документов и запросов в данной модели выражается в матричном умножении 9 на 1 (или q):
1=9x1
В качестве меры формальной релевантности используется скалярное произведение:
(5* =1|1а1 Ь1 = чт х е х 1. (3)
Здесь е= 9тх0 - матрица "термин-термин" размерности 0x0,
причем / 1, если 1-й и ,3-й термин входят
■е.. =< „в одну и ту же дескрипторную статью ^ 10, если нет. ^
В случае словаря без связей (матрица 8 не содержит внедиа-гональных элементов),
а! = Vе! Ь1 = W ^iMlVA =iI,Eiaibi-' <4)
где Е=(Е1)1_1 g D ~ вектор словаря индексирования (диагональ матрицы z в данном случае).
В качестве количественных характеристик преобразований сообщений при индексировании рассматриваются моменты меры формальной релевантности Р*:
ечУлиЛ-Рг «8<P>rUJiiMuWVjtWkV- (5)
для случая словаря без связей принимающие вид:
Аппарат описания сложных информационных процессов включает понятия многомерных профилей, потоков,'операторов.
Совокупный профиль - множество элементарных профилей, к которым относятся векторные ^ ={А1>Н , матричные AMN = {A1J >мн и т.д. профили, описывающие одномерные, двумерные последовательности информационных объектов. На многомерный случай обобщаются понятия потока и оператора:
- совокупный векторный поток Ia = { LA } . матричный поток LA = ÍLau}mn и т.п.
- векторный оператор формирования потока:
V[aH] = [W.....W.....VM[aM]],
где для i=l,2,...,М, V [ан] = tAt, с^] - элементарный оператор или компонента V[a,J, и т.п.
м
Совокупный оператор есть О или 1 , если все его компоненты равны 0 или 1, соответственно (квазиматричные операторы такого типы обозначаются О,,,,, 1„„ и т.д.).
М N МИ
Вводится упорядочение и операции над подобными (равной мерности и размерности) многомерными операторами. Для описания сложных структур информационных процессов используются операции типа умножения над операторами разной мерности и размерности: прямое произведение векторов V[c ] = VtaM] (х) V[bN],
сцепление вектора с матрицей по столбцам V[c„„]=Vta„]#Vtb11„],
1 М N М М N
произведение матрицы на вектор V[с ] = V[aM[)] х V[b ], и т.п. Рассматриваются операторные тождества, выражения, соотношения. уравнения, иллюстрирующие свойства операций #, (х), х, и.
Оператор концентрации-рассеяния определяется следующим образом: пусть заданы фиксированные потоки V[a ], V[b ]. Оператором концентрации-рассеяния называется матричный оператор W[b,m,а], размерности MxN, такой, что
V[с ] = W[b,m,a] xv[а 1 где " " •
Vfc.l (_ V[b„] для любых т. м м
Здесь т - множество управляемых параметров (как правило, переменных операторов), варьируя которые могут быть получены различные операторы концентрации-рассеяния. Оператор W[b,m,а] задает управляемое преобразование совокупного векторного потока в некоторый другой векторный поток.
Последовательно-параллельное соединение операторов (выражение, приведенное к композициям операторов концентрации-рассеяния) позволяет описать сколь угодно сложные конфигурации информационных потоков (процессов). Приводятся операторные выражения, соответствующие оператору концентрации-рассеяния.
Рассматривается количественная форма описания многомерных потоков и операторов. Совокупным потокам (массивам) в соответствие могут быть поставлены многомерные объекты, в том числе: вектор (для векторного потока) X = (X, ) ' матрица X = (X, J„„ и
1 М 1 j М N
т.п. Совокупному оператору, например, векторному V[aM], соответствует вектор вероятностей v[aML Оператору концентрации-рассеяния соответствует матрица условных вероятностей, задающая преобразование потоков:
X = Wtb, а] X I .
а Ь
Последовательному соединению операторов соответствуют выражения типа: -
X = W[g, b] х W[b, а] хХ , и т.д. £ а
Линеаризованное описание информационных процессов вводится с целью упрощения описаний информационных потоков и операторов, для постановки конкретных задач оптимизации и управления информационными ресурсами и базируется на аппарате тематической рубрикации, приводящей к декомпозиции потоков.
- 18 -
В случае декомпозиции потока Ь0 может быть определен
совокупный тематический поток или г = (г.....гк,...,гк) - вектор мощностей тематических составляющих потока Ь .
Для произвольного потока Ь , вводятся: - вектор тематического состава (ТС) потока I X = (X к) , „
1 1 1 К - 1 . 2 .... К
компонента которого есть мощность К-й тематической составляющей Ь ;
- тематико-статистический спектр (ТСС) потока Ь
\ = О*-!.■
- вектор тематической полноты потока (ТПП)
\ = О.С-1.• Т!К -
Бинарная линеаризация информационных потоков имеет место,
если число рубрик весьма велико, объемы тематических компонент потоков малы, а сами потоки не пересекаются. В этом случае вектор ТПП принимает бинарный вид.
Линеаризованные представления также позволяют определить количественные формы операторов (потоков), их объединения или сцепления, операторных выражений. Например, оператор концентрации-рассеяния может быть представлен в виде:.
К V
£Т,к-Тк-г„
й к К й х к-у/
и» ■ 1-' и т-д- (7)
Здесь х к, у1 к - компоненты векторов ТСС взаимодействующих потоков X , У1.
Эти соотношения позволяют приближенно построить оператор концентрации-рассеяния по наблюдаемым статистическим характеристикам потоков, прогнозировать структуру потоков и, в конечном итоге, ставить и решать оптимизационные задачи.
Во второй главе предложенный аппарат используется для описания информационных процессов и систем на различных уровнях: элементарные процессы и системы, сложные процессы и их подсистемы среднего уровня сложности. При этом осуществляется совместное рассмотрение деятельности потребителей информации и систем, а
также процессов управления взаимодействием как со стороны потребителя, так и системы.
Теоретико-множественные модели АИПС режима адресного информирования и поиска по разовым запросам используют понятия и характеристики операторов формирования потоков запросов, документов, фактически и формально релевантных сообщений. Модель режима адресного информирования приводит к двумерному гипергеометрическому распределению истинной и формальной релевантности <p(a*,ß*), позволяющему оценить качество информационного обслуживания (подробно проблема качества рассматривается в 3 главе), модель режима разовых запросов позволяет оценить вероятность ответа на запрос как функцию от степени близости информационных профилей пользователя и системы.
Линейные модели информационного поиска также позволяют определить параметры соответствующего распределения, которое в случае БПИП оказывается двумерным пуассоновским. В этом случае моменты а*, б2(а) изоморфны выражениям (1), ß*. б2(ß) определяются из (5), коэффи^иэ^т |<овариации Caß:
Caß = 1 I l i Р Р - P2P Р I, (8)
н 1 = 1 k = 11 = 1 kl [ 1к 11 1 к 1)' к '
для случая словаря без связей принимает вид:
Caß = 1 ji£i(Pu-PiP")- О)
Линейная модель диалогового поиска описывает систему , в которой пользователь БД настраивает формулировку запроса.
Если запрос q зафиксирован, то:
D D Е t t т
a ^IiW ß = ,?iVar (аЛ= Ч = ЧТ*е
a* =1Ziai-Pbi; б2 (а) = qTxcovbxq
Г-
/S /ч
В случае диалоговой коррекции вектор q=(a1)l=l г D> будет модифицироваться от шага к шагу. В качестве исходного значения для q логично выбрать q(0) = 8axq. Процесс корректировки запроса
- 20 -
может быть представлен в виде:
Bxq(t~n В xq(t)
q(t)= -
К1'" D D i».
1 I I a( " fe
r = 1J = i 3 rj
где В - некоторая матрица, зависящая от стратегии корректировки например, при корректировке дескрипторами выданных документов, В = (9b)x(L0xL0T)x(8b)T.
Для данного случая, по аналогии с (10) б2 (ß* ^"хсо^х^5, Caß = qbTxcov"xq здесь qb = (6bTxq). (ll) Рассматриваются условия сходимости процесса корректировки и показано, что процесс сходится к собственному вектору матрцы В.
Рассмотрение процессов информационного обмена на макроуровне осуществляется путем описания функциональных и организационных компонент глобальной системы информационного обмена с помощью теоретико-множественных операторов концентрации-рассеяния.
Функциональная декомпозиции системы, информационного обмена приводит к построению N элементов основной деятельности (ЭОД) - совокупности:
е = [ег •••• е1.....ен]-
причем е соответствует пара N-мерных совокупных операторов
е = < Y", Xй >,
где УИ = [П , эе'] - исходные потоки сообщений, генерируемых в процессе основной деятельности,
Xй = [Пи, эе"] - совокупная информационная потребность.
Информационным обеспечением е является всякая совокупность сообщений L1 С L . такая, что:
\ 1 Ч ~ UK nnJ >
В форме операторных представлений потоков, информационным обеспечением е является всякий поток Х=[П, эе] такой, что X CL Xй Соответственно, Xй является идеальным, потоком информационного обеспечения, содержащим для каждого е все релевантные и только релевантные сообщения.
Системой информационной деятельности (СИД) является оператор концентрации-рассеяния, удовлетворяющий условию
- 21 -Исид(т) С Xй ® у" , где т - управляемые параметры, конкретизирующие процедуру концентрации - рассеяния. Оператор V (ш) задает преобразование
X = V» (ш) .
сил
Информационная деятельность осуществляется в результате взаимодействия элементов информационной деятельности (ЭИД) среди которых выделяются входные (е) и выходные (£'), что отражает размещение ЭИД в организационных элементах СИО.
Совокупности выходных и входных ЭИД описываются операторными выражениями > ж' # р', с «-» р # Ж, которые соответствуют: р' - выходному отбору (селекции) сообщений; ж' - направленной передаче в определенные точки (выходной коммутации);
ж - выбору точек взаимодействия (входной коммутации); р - входному отбору (селекции) сообщений. (Здесь предусмотрено взаимодействие через К точек коммутации - ТК, представляющих собой информационные рынки с несформи-ровавшейся специализацией)
Организационная Зекожпозиция приводит к построению множества п организационных элементов Е = [Е^ • Рассматриваются две структурные разновидности элементов: потребители-поставщики информации (ПП), включающие основную деятельность; элементарные информационные системы (ЭИС) не содержащие ЭОД.
Рассматривается взаимодействие п оргэлементов без различения вначале ПП и ЭИС. В такой системе могут быть выделены характерные потоки (операторы): информационный ресурс, подлежащий распространению (УИ ); поток, передаваемый (эмиттируемый) совокупностью е' (У); совокупная информационная потребность (УаЕ); коллективное предложение информации (У0 ); оператор коллективного информационного спроса (У<3Е); поток информационного обслуживания (Х°Е); совокупная информационная потребность (ХИЕ); поток ассимилируемой информации (X ).
Взаимодействие организационных элементов системы информационного обмена может быть представлено оператором сети коммуникаций №ск(ш) организационных элементов (СК), который является оператором концентрации-рассеяния, задаваемым выражением:
- 22 -
Иск(т) = (Х% (х) * №е х Л'Е) = = (рЕ # ЛЕ) X (Ж'Е # р'Е), где ш = <я'Е, я'Е>, соотношение
ХЕ * *„<И> ХУИЕ
описывает процедуру концентрации-рассеяния потока/ресурса Уи£.
Взаимодействие функциональных элементов системы информационного обмена. Для построения операторов, описывающих конечную взаимосвязь элементов основной деятельности и характеризующих структуру СИД, необходимо выделить в общей совокупности "п" ОЭ -N потребителей-поставщиков (ПП) информации и М элементарных ИС (ЭИС). Этому соответствует декомпозиция операторов (потоков) ХЕ, У£и, Иск, в результате которой операторное соотношение X (ш) х у" может быть переписано в виде
X иск И=к уИ
пп пи X
X шск ГК уИ
ЭИС ип ии ЭИС
Здесь X
совокупный поток информационного обеспечения;
Хэис ~ поток информации, ассимилируемой множеством ЭИС : Уи -исходный поток генерируемой информации; Уи - информационный
Иск
ПП
действию ПП; VI0к
пи
ПП; Иок
ип
ЭИС; VIе к
ИИ
Отсюда:
ресурс множества ЭИС; И"" - оператор соответствующий взаимоописывает взаимосвязи выходов ЭИС со входами соответствует взаимодействию выходов ПП со входами коммуникации ЭИС между собой.
X = (Иск X
х уи) и (Иск х Уи пп пи
(VIе к х уи) и (Иск
ип ИИ
ЭИС
X Уи )
ЭИС
Поскольку УИ X
эис
гСК
Хэис, может быть построен операторный ряд:
(И и (Иск хГ ) и (1ГК х Г" хГ ) и
пп пи ип пи ии ип
и (!/1ск х (Иск )г х К" ) и ... ) ху"
пи ии ип
Компоненты ряда соответствуют непосредственному взаимодействию ПП, их взаимодействию через ЭИС, через однократно и многократно коммутированные ЭИС.
Информационной сетью является операторный ряд вида
1(СК ц|С к \ 2
отражающий взаимодействие только ЭИС.
V} = Г* и (1ГК )* и (1ГК )с
N ии ии' ии'
и . . .
Таким образом, оператор системы информационной деятельности Исид, соответствующий взаимодействию только элементов основной деятельности
X = « (Ш) х У",
СИЛ
может быть представлен в форме:
V (т) = Иск и х (1 и и У) х Иск ) , (13)
сил пи пи ММ N ип
с параметрами ш = <ЛЕ, я '>.
Далее рассматривается аналогичная декомпозиция выражения
V (ш) =
ск
I* (т) = (рм) х (ГЕ#р'):
(р#7Г) X (Л'#р')
(РэиЛис> х («'«Р')
(РШ) X (Г,иг«р',и„)
(р #71 ) X {%' #р' ) гэис эис эис г эис
Здесь л - компонента оператора % , соответствующая входной коммутации ПП; Яэис - входная коммутация ЭИС; %' - выходная коммутация ПП; Я'эис - выходная коммутация ЭИС; р, р' соответствует селекции сообщений потребителями-поставщиками; Рэис. Р'эис ~ соответствуют ЭИС. Отсюда:
Исид(т) = (р#70х(л'#р')и(р4йГ)х(7Г'эис#р'эис)х(1ммШн) х Х (Р'эис^'эис^^'^Р')-
Оператором обобщенной информационной системы (или информационной системы - ИС) является оператор концентрация-рассеяния с параметрами шис , или операторное выражение:
И (ш ) = (Ж' #р' ) х (11Д,) х (р Ж ),
ис ис ЗЯС г знс' ММ N гэис эис'
Здесь т = <зГ ,л >, размерность И - К х К.
ис эис эис ис
Тогда
Исил(т) = х (1кк иИисЧс» Х (Г*Р') (14)
В случае коммуникаций исключительно через обобщенную информационную систему:
X = (р#Л) ^ (ш^^)х(тс' #р') хУ". (15)
Данное соотношение позволяет ввести частное определение организационной декомпозиции СИО на п=И+1 элемент - на обобщенную информационную систему и N потребителей-поставщиков информации.
Совместное рассмотрение выражения (15) и (13)-(14), позволяет дать расширенную интерпретацию точек коммутации (ТК).
Линеаризованные модели описания информационных процессов и систем относятся к частичным каналам взаимодействия, описываемых несколькими последовательно связанными операторами концентрации-рассеяния.
Рассматривается взаимодействие N потребителей с М потоками изданий. В линеаризованной бинарной форме система описывается матрицами , ~ ~ .
А=ЧЛм- Г= П=(*1Лм-
где а = 1, если к-я рубрика представлена в 5 -м йздании,
и 3
у к =1, если к-я рубрика представляет интерес для 1-го потребителя информации,
я =1, если 1-й потребитель информации подписан на З-е издание.
Характерные информационные потоки в количественной форме (информационного обслуживания - хс , ассимилируемый поток - х , идеального информационного обеспечения - Xй ) в этом случае принимают вид:
М I? ~ МИ
м и
X, = I I 7Г . • а ■ V к • 2.
1 ^1к=1 и кз 41 к
'Аналогично строятся тематические спектры и компоненты потоков для случая обслуживания в режиме разовых запрсов.
В третьей главе рассматриваются проблемы оценки и оптимизации информационных процессов и систем на различных уровнях описания, с использованием линейных, теоретико-множественных и линеаризованных моделей. Дается обзор частных и интегральных критериев оценки АИПС, базирующихся на измерении отклонения потока информационного обслуживания (Xе, Ьс) от идеального (Xй, Ьи), а также координат представления рабочих характеристик АИПС - совокупности значений частных критериев, сопровождающих модификацию запроса пользователя при информационном поиске.
Предложены сравнительно более удобные и содержательные координаты <х, п>, где х - число выданных релевантных документов; п - количество выданных документов (х - общее число релевантных сообщений в Ь , п0 = И01). В нормированном виде данные коорди-
наты принимают вид <r,v> (г = х/х , v= n/n ). Переменные <п, х> (<r,v>) являются прямоугольными геометрическими координатами, каждой допустимой точке которых соответствует некоторая реальная выдача АИПС. Предложен интегральный критерий ri (полезная работа АИПС или объем высвобождаемой информационной деятельности потребителя информации). При перемещении по рабочей характеристике х(п) значение ц меняется и достигает максимального значения при dx/dn = pQ = xQ/n0, точка <х*,п*>, удовлетворяющая данному условию, является точкой оптимального режима АИПС по критерию ri.
Данная модель обобщается на случай взаимодействия потребителя с совокупностью М информационно-поисковых систем, причем потребитель решает задачу максимизации объема информационного обеспечения (х), при ограничениях на объем (п) информационной деятельности по отбору релевантных сообщений из L°:
М М
X = ? X (п ), п = X п = const.
J J ~ ^ J
Точка оптимального взаимодействия с совокупностью М систем соответствует работе с некоторой эквивалентной системой, причем выполняется
dx^ (n* 3 )/dn = dxi (n*t )/dnt= X , i, j=l,2,____M,
т.е. X является обобщением pQ на случай наличия множества альтернатив взаимодействия пользователя с внешними системами.
В порядке обобщения понятий теоретико-множественной и линейной моделей АИПС вводится понятие вероятностной модели АИПС, включающей в себя:
- функцию ф(а*,(5*) распределения двумерной (непрерывной или дискретной) случайной величины (а*, (5*), где
а* - мера истинной релевантности документа запросу, (5* - мера формальной релевантности поискового образа
документа поисковому образу запроса.
- пороговые значения истинной (эе") и формальной (эс°) релевантности.
Аппроксимация ф(а*,£*) Зеумернш нормальным распределением позволяет провести содержательный анализ факторов, влияющих на эффективность ИПС. Например, для переменных х, п имеют место следующие соотношения:
00 00 Ca оо
X = n / f Ф(а'.р') da*dß*, n = nf Г Ф(а*, ß*) da'dß* (17) 0 эе" эес 0 -со эес
Тем самым, если задана функция ф(й* ,ß*), то могут быть вычислены любые координаты, критерии и построена рабочая характеристика (посредством изменения эе°) . При этом увеличение корреляции а', ß* (Raß) приводит к получению характеристик АИПС, на которых достигаются большие значения частных и интегральных критериев т.е. Raß является обобщенным критерием оценки качества информационной системы.
Для случая теоретико-множественной модели АИПС множества LH, L° являются профильными потоками с профилями Пи, П° , значение данного критерия приобретает простейший вид, определяемый степенью близости профилей системы и потребителя:
S-D - Пи -Пс Raß = - ,
/ Пи(D-П")-Пс•(D-nc)
здесь S=|ПиППС|, ПИ = |ПИ|, ПС = |ПС|, D=|D|.
Модель оценки выборочного индексирования является модификацией теоретико-множественной вероятностной модели, позволяющей оценить влияния глубины индексирования на качество поиска. Задан профиль потребителя П. 1 - некоторое сообщение, ПОД строится путем случайной выборки 1' терминов из исходного сообщения 1; в данном случае:
Caß 1' (D-l) /Т" Raß =- = -=» / - = R. , (18)
|/б2 (а) - б2 (ß) /Г • 1- (D-l) ■ (D-1')
1
здесь 1=|1|, 1'=|1'|.
Данное соотношение характеризует процесс индексирования с
нулевой эффективностью ("пустой" процесс).
Линейные модели информационных потоков, индексирования и
поиска (1), (5), (8^ позволяют построить следующее выражение:
1?1к?11?1£к1(р1кр11 - р?рл) К0ф = - (20)
"[Го " ~ Б Б Б Ё)
?! (Р1 ГР" Р" ) Х! ^ К ?! 1 ^ £и 1 ( Р! К Гр4 РК Р! )
Связь коэффициента Reiß с параметрами структуры тезаурусов (£к1) и обрабатываемых информационных потоков (Plk). позволяет оценить влияние этих факторов на качество системы. Данное выражение кроме условия 8a=9ö (из чего следует £lk=£kl) построено при предположении, что потоки документов и запросов лексически согласованы (тематически совпадают), что с формальной точки зрения означает описание Qq и Lq одной и той же матрицей Р (Ра=Рь).
Рассматривается вопрос о сравнительной эффективности различных терминов индексирования на примере еырожЗеннозо тезауруса., или словаря без связей (4), (6). Если словарь индексирования расширен на один термин ( в позиции es появилась единица вместо нуля), то Caß получит приращение:
ARctß = constxP^ (l-p|) (21)
Данное выражение позволяет связывать эффективность применения s-ro термина для индексирования с его частотой. Очевидно, что как общие, так и редкие термины обладают малой эффективностью с точки зрения Raß. ARaß приобретает тем самым статус различительной силы термина s.
Для оценки структур дескрипторных статей в качестве первого приближения рассматривается изменение Caß при изменении структуры 0. Caß состоит из слагаемых :
ÄC«ß -Лр,*ри -ЛР*РЛ ■ (22)
отличных от нуля при £к1=1. т.е. если к-й и 1-й термины входят в одну дескрипторную статью.
Тем самым, целесообразно включать в одну дескрипторную статью термины к и 1, если соответствующее значение Л - максимально (или выше некоторого порогового числа). Показывается, что данная мера комонотонна ранее предложенным эмпирическим соотношениям (мера Джулиано).
Рассматривается оценка лексической несогласованности документов и запросов. В общем случае справедливо условие Ра * Рь. В данной ситуации, в частности:
Cflß = JJJ^K (раи-р\к - pVpYpVpbK>-
Исследуется, как изменится значения Caß при переходе от условия ра=рь к неравенству матриц. При этом предполагается что Рь
получается из Ра путем перестановки рядов sh q. Показывается, что Gaß уменьшается и лексическая несогласованность запросов и документов приводит к снижению качества поиска.
Для случая, когда не выполняется условие 0а=9ь (совместимости тезаурусов), оценивается изменение Cctß, если 8Ь образуется из 9а путем выделения q-ro термина из статьи 1-го дескриптора (разукрупнение по отношению к 6а=8ь).
Пусть е для gb есть £', т^гда:
D D
= I Е I (Р -Р -Р2-Р -Р ) k = 1 kqI = 1 v lk lq 1 к q '
Для случая БПИП (см. (2)) выражение в скобках положительно и, следовательно ACaß>0. Таким образом, несовместимость ухудшает качество системы. Исследование, проведенное для вырожденного случая (4), (6) позволяет получить более точную оценку.
При рассмотрении диалогового режима без корректировки и с корректировкой запроса критерий Raß приобретает, соответственно, вид (см. также (10), (11)):
qTx (txcovb) х q
Röß = - , (23)
|/(qTx covb xq) • (qTx(ExcovbxET )xq)
(qb(п)Txcovbxq
Raß(t) = -, (24)
(qтxcovьxq) • ((с[ь<1) )тхсоуьх(<^ (1>))
В выражении (23) матрица ехсоуь характеризует связность те-заурусных статей и характеризует качество используемого тезауруса. При домножении слева и справа на q получается величина, соответствующая близости попарных ассоциаций терминов запроса ("микротезауруса" вкупе с матрицей микроассоциаций) и ассоциаций терминов массива, с учетом вхождения в тезаурусные статьи.
Выражение (24) показывает изменение Рсф(1), при исследовании данного вопроса путем вычислительных и имитационных экспериментов, было выяснено, что наиболее типичной является ситуация
его возрастания на первых 2-4 итерациях и последующее убывание. Это связано с действием таких факторов, как соответствие исходной формулировки запроса информационной потребности и соответствие между профилем пользователя и содержимым БД .
Критерии оценки и задачи оптимизации информационных процессов и систем обобщаются далее на уровень макромоделей информационного обмена. Каждому из операторов системы информационного обмена (12) - (15) поставлены в соответствие символические функционалы, связывающие затраты с характером входных и выходных информационных потоков: основная деятельность потребителей-поставщиков информации: (сод)- информационная деятельность ПП (по входной селекции сообщений - СИД1' по вх°Дн°й коммутации -Сид2), информационная деятельность ИС (Сис), информационная деятельность ПП (выходная коммутация сообщений - С'идг. выходная селекция - С' ).
Понятия пустых процессов с нулевой информационной эффективностью позволяют сформулировать ряд гипотез о поведении функционалов затрат, общий смысл которых состоит в том, что если выходной поток не отличается от входного или является случайной выборкой, соответствующие затраты в данном звене отсутствуют.
Идеальные информационные процессы определяются как противоположное, по отношению к "пустым" процессам, понятие. В общем цикле наличие идеального звена приводит к сосредоточению в нем всей информационной деятельности и к высвобождению смежных звеньев.
Идеальной СИД является система, обеспечивающая создание идеального информационного обеспечения:
Xй = щ х = И (ш ) х Уи,
исид сиди
реализующая максимальную полноту передачи релевантных сообщений и, как следствие, минимизацию затрат основной деятельности (С =т!п).
Если идеальную СИД подвергнуть декомпозиции вида:'
1,ои«(ти) = (Р #ж) х »исЧс* х Р'>'
то информационная система является идеальной (в различных модификациях) и ей соответствует оператор И , если выполняется:
г г ИИ с
Xй = (я* x И х ж'*) х у",
■ ИИС
где я*, я'* - фиксированные или случайные (т.е. "пустые") опера-
торы коммутации ПП.
Идеальная ИС приводит к полному, высвобождению собственно информационной деятельности потребителей-поставщиков информации, целиком осуществляя таковую в своих рамках (сидп=0). Более того, поскольку в случае ИИС ХС=ХИ, осуществляется также полное высвобождение избыточной основной деятельности.
Очевидно, идеальные информационные процессы могут потребовать неправданно больших затрат. Поэтому необходимо некоторое пропорциональное распределение информационной деятельности , что приводит к постановке ряда оптимизационных задач.
Оптимизация СИО в целом - минимизировать Ссио при постоянном результате ОД (Уи). Очевидно,.существует глобально-оптимальное управление т* (соответственно, X*) такое, что
С (т*) = С (т*)+С (т*) = min С (т),
оно од сид га сио
т* = <т* . га* >.
ИС п
Оптимизация СИД - минимизация затрат информационной деятельности при заданном результате ИД (полноте информационного обеспечения). Данная задача относится к функциональной декомпозиции СИД. Аналогично формулируются задачи оптимизации обобщенной ИС и деятельности потребителей-поставщиков информации.
Рассматривается пример построения функционала Сод(г) в явном виде (г - полнота информационного обмена), на примере ситуации, когда некоторая совокупность N задач должна быть реше на м элементами основной деятельности. При г = 0 затраты избыточной основной деятельности в такой системе максимальны и равны
N-k-i\N
• 1
К~0" 1=1 4 ~k+l "N
(здесь M=N). С увеличением г Д -> 0.
Модель оптимизации обслуживания системой изданий. Линеаризованные представления (16) позволяют сформулировать задачу глобальной оптимизации СИД:
- минимизировать линейный функционал Ссид:
М R NMR
с = с -м +z -(с I I а + с I I ж la),
сид 1 "о v 2 J = 1 k = 1 Ю 0 1 = 13 = 1 1J к = 1 к d
при нелинейных ограничениях на полноту:
N-l N-k-1 A(N, 1) = I к Л, (-l)1^ , C* + 1
N
Г !
м и
А »13к?.
М I? ~ I I к • а
3 = 1 к = 1 41
а также рассмотреть другие формулировки.
Решение данных задач дает структуру оптимальной подписки и структуры изданий (матрицы А, П).
Аналогично формулируется линеаризованная задача оптимизации центров ретроспективного обслуживания.
В четвертой главе рассматривается документально-лексическая БД, являющаяся инструментальным средством исследования информационных потоков и стратегий поиска, некоторые результаты экспериментальных исследований потоков, приложения разработанных методов и моделей для оптимизации структуры документальной БД на примере БД ШГЗ и информационного продукта ЮРИУС (полнотекстовая информационная база по законодательству).
Документально-лексическая БД (реализована на материале информационной службы Ш1Б) является экспериментально-исследовательским прототипом, предназначенным для реализации и исследования ассоциативных поисковых стратегий, базирующихся на использовании тезауруса и результатов анализа тематико-статистической структуры информационного массива.
БД реализована в среде адаптивной СУБД типа АОАВАБ, СПЕКТР и состоит из комплекса логических файлов - Тезаурус ШБ, Документальный файл Ш1Б (РЖ Ш13А1ош1пбех), и ряд других. Адаптивные СУБД позволяют физически связывать поля различных файлов, и после вы полнения над БД операции связывания она приобретает структуру, в которой проводится поиск по любому файлу (как основному) с появлением в запросах имен полей связанных файлов (как зависимых).
Реализованы и исследованы различные типы связи основных файлов Тезаурус - РЖ Ш13А1от1пйех (термины тезауруса - дескрипторы РЖ, вышестоящие или нижестоящие термины тезауруса - дескрипторы РЖ, при этом различные варианты сцепления основных файлов приводят к разным физическим структурам БД и разным резуль-
татов поиска по одним и тем же поисковым критериям), а также организованы и использованы связи файла унитермов и классификатора с основными файлами.
Могут быть выделены следующие разновидности поиска в БД:
- одноуровневый, однофайловый - простой, реализуемый также в обычных документальных АИПС;
- многоуровневый однофайловый (поиск в файле Тезаурус, позволяющий осуществить навигацию по произвольным цепочкам связи терминов; - ассоциативный поиск в файле РЖ - документов, содержащих хотя бы один дескриптор исходного документа и т.д.);
- одноуровневый, многофайловый (поиск в тезаурусе с использованием унитермов, поиск в РЖ с использованием унитермов, поиск в тезаурусе с использованием РЖ и наоборот и т.п.);
- многоуровневый, многофайловый (поиск в РЖ с использованием тезауруса посредством установления вертикальных, горизонтальных связей в тезаурусе). Это наиболее богатый поисковыми возможностями тип поиска, позволяющий автоматически расширять и модифицировать поисковое предписание;
- частотно-ассоциативные стратегии поиска - для заданного начального поискового аргумента (дескриптор, рубрика, страна, и т.д.) и некоторой меры близости (косинус угла векторов, коэффи-циэнт корреляции Пирсона и т.д.) определяются один или несколько дескрипторов (или других полей), наиболее сильно связанных с исходным аргументом; по выявленному ассоциативному признаку совместно с исходным аргументом проводится многоуровневый или одноуровневый поиск, сужающий или расширяющий запрос, основанный на исходном аргументе.
Важной возможностью, предоставляемой документально-лексической БД, является частотно-структурный анализ потоков информации: построение словарей и профилей информационных потоков, анализ динамики информационных потоков, сопоставление условных и безусловных частот дескрипторов в различных профильных потоках, определение пересечений информационных профилей потоков. Результаты подобного анализа представляют как самостоятельный интерес в качестве данных для моделирования и оценки информационных потоков, так и могут исгользоваться для реализации дополнительных
стратегий информационного поиска (частотно-ассоциативного типа) . Таким образом, в частности , были исследованы распределения 1 и 5* (1) для магнитоленточных служб INIS, ВИНИТИ и др. потоков. Статистический анализ данных распределений показывает, что с доверительной вероятностью 0.9 пуассоновским распределением могут аппроксимироваться все указанные распределения, кроме распределения длин текстов и пересечений рефератов (в случае рефератов наблюдается высокая положительная корреляция терминов, отсутствующая в дескрипторах и заголовках). Осуществлен сравнительный анализ степени связности дескрипторов в различных подпо-токах (дескрипторные, тематические, по видам, по странам, по изданиям), которым соответствуют различные фрагменты и версии ассоциативных матриц потока (1), (2). БД использовалась также для имитационного моделирования при исследовании стратегий коррекции запросов (24).
На основе документально-лексической БД как прототипа, в частности, реализована отраслевая автоматизированная справоч-но-информационная система по стандартизации (АИСС), которая ориентированна на автоматизацию информационного обслуживания стандартами, ТУ, другими нормативно-техническими документами (НТД), а также своевременного внесения изменений в документы и оповещения пользователей.
Оптимизация структуры документальной БД. Экспериментальная апробация моделей оценки и оптимизации АИПС базируется на использовании коэффициента Ra(3 (20). Приведен пример применения критерия на лингвистической базе информационных служб INIS, ВИНИТИ и других источниках.
Исследование выполнялось в два этапа: прямой метод, основанный на локальных критериях оценки АИПС (р, г, б и т.д.); косвенный. с использованием обобщенного критерия Ra|3.
Прямое исследование проводилось на лексической базе системы IHIS. После загрузки в поисковые файлы системы дескрипторов, терминов из заголовков и рефератов каждого документа, были проведены поиски по всем возможным сочетаниям полей, а также измерены точность и относительная полнота выдачи.
Анализ коэффициэнтов регрессионной зависимости полноты и
точности от различных комбинаций текстовых полей в БД показывает, что по убыванию эффективности они образуют последовательность дескрипторы - реферат - заголовок.
Косвенное исследование проводилось на расширенной лексической базе. Первоначально задача состояла в том, чтобы оценить по критерию Иар различные поля индексирования, а затем же цели расширились и были исследованы:
- эффективность "квази-алгоритма индексирования" - усечение терминов реферата до различного числа ведущих символов;
- усечение терминов "с конца" на 1-3 символа;
- усечение терминов "с конца", путем удаления окончания;
- алгоритм автоматического кодирования терминов, предложенный для АИПС "РИПСИМЕ" .
Обработка данных осуществлялась следующим образом:
- "полные тексты документов" (1) образовывались путем объединения полей - заглавие, реферат, дескрипторы (или ключевые слова - для ВИНИТИ, "РИПСИМЕ");
- поисковые образы (1) составлялись путем выбора одного из полей, их комбинации, или путем соответствующего усечения/нормализации термина реферата;
- на множестве всех полученных пар <11, 1 > сначала вычислялись значения ф(а*,р*), затем 11сф; для нормирования результатов использовалось соотношение (18).
Статистический анализ полученных значений Исф показывает погрешность менее чем 0,01. В результате установлено:
- процедуры усечения до трех символов менее эффективны, чем усечения до 5 символов, в целом же данные процедуры неэффективны, по сравнению с дескрипторами;
- порядок полей документа, проранжированных по убыванию эффективности использования для поиска совпадает с полученным при проведении прямого эксперимента.
Аналогичные результаты получены при экспериментах с БД ВИНИТИ, РИПСИМЕ.
Рассматривается Интегральный банк ЮРИУС (Юридическая универсальная информационная система), представляющий собой одну из первых отечественных БД полнотекстового поиска информации. При
разработке логической и физической структуры БД, индексировании документов, оптимизации состава словарей, разработке пользовательских интерфейсов и навигации в БД использованы результаты, полученные в Главе 3 диссертационной работы (критерии различительной величины термина (21), списки ассоциированных терминов• (22), модель роста словаря).
Тематическая, логическая структура БД. С тематической точки зрения ЮРИУС включает БД: Свод Законов СССР, Трудовое законодательство СССР, Комментарий Законодательства о труде. Новейшее Законодательство СССР, Новейшее Законодательство России, и ряд других.
С логической точки зрения входящие в ИБ JURIUS БД имеют относительно стандартную структуру и включает две основные компоненты: регистрационные карты (РК) и полные тексты. РК представляют собой форматированные записи, содержащие набор библиографических данных, а также ссылку на соответствующий полный текст. Полные тексты документов состоят из логических или физических страниц. При поиске информации в ИБ JURIUS может быть осуществлена как локализация документа в целом, так и его отдельной страницы.
ИБ JURIUS реализован в следующих программно-технических средах: ЕС ЭВМ, ОС SVS, СУБД ADABAS V 4.1.1; СМ ЭВМ, ОС RSX, СУБД ADABAS-M; ЭВМ "Реалите" IN-500/5000 - среда IN-PIC; IBM PC, системы программирования dBase, FoxBase, Clipper, Foxpro; IBM PC, OC XENIX, СУБД ORACLE.
Физическая структура БД является одним из первых примеров реализации документальной системы в среде реляционных СУБД и систем программирования и включает в себя: Файл текстовой части БД, Словарный файл текстовой части, Инверсный файл текстовой части, Справочно-поисковые файлы (Стандартным является файл РК), Словарь и Инверсный файл справочно-поисковых файлов. Файлы синонимов, Файл хранимых запросов.
Программные средства БД ЮРИУС включают в себя средства администратора БД; АРМ подготовки данных и интерфейсы конечного пользователя. Пользовательские интерфейсы ИБД ЮРИУС предоставляют широкий круг возможностей формирования запроса в режиме окон-
ного интерфейса и гибкой системы меню. Реализован гипертекстовый переход между ассоциированными фрагментами текстов.
ИБД ЮРИУС был внедрен более чем в 30 организациях, в том числе в ПВС РФ. Базы данных "Новейшее законодательство России" и "Новейшее законодательство СССР" эксплуатировались на 3-м - 6-м Съездах Народных Депутатов России, в рамках справочно-информаци-онной службы Президиума ВС РФ. Фрагменты ИБ ЮРИУС активно использовались в учебном процессе МИСИ, РГГУ, с целью ознакомления с практическими принципами и теоретическими основами программирования документальных информационно-поисковых систем.
В пятой главе рассматриваются методы управления ИР на макроуровне с использованием координации информационных процессов. Оптимальное глобальное управление системой требует периодического решения в некотором центре управления задач и сообщения потребителям вектдров оптимальной подписки (П) или же структуры потока запросов (X к) , ^издательствам (центрам) - векторов оптимальной специализации С С Г^к) или А ).
Однако реализация подобной стратегии управления обменом очень сложна и путь преодоления указанных трудностей состоит в декомпозиции глобальной задачи на совокупность локальных задач и задачу координации, переход к двухуровневому управлению. С учетом модификации целей , локальные задачи запишутся в следующей форме:
- локальная задача ИС - минимизация функционала:
МИ N М К
ёо3(т0,и0) = СГМ + ^Мо-^цА^Лг
Данное выражение есть разность между выручкой СИ за предоставляемые услуги и затратами на функционирование изданий.
- локальная задача 1-го потребителя информации - минимизация
функционала (1=1,2,____ Ю :,
МИ М И
к В(ш , и ) = С ■% I ж X а + г -I я -в I ,а
1 Г 1' 0 0 3 = 1 1 3 к = 1 к 3 0 3 = 1 13 3 к = 1 к 3
Здесь ш0 - совокупность управляемых переменных СИ, ш0 = шис = А, и0 - совокупность неуправляемых переменных СИ, ио = П, ш - управляемые переменные 1-го ПП (1-я строка матрицы (П), и1 - неуправляемые переменные 1-го ПП (и = А, VI).
Координирующим воздействием (модификацией целей) здесь яв-
ляется стоимость услуг (значения элементов матрицы (3 = ((5 ) ). Показывается, что рассмотренная двухуровневая система обладает предпосылками координируемое™.
Аналогично формулируется и анализируется координации системы информационных центров (СЦ). Координирующим воздействием может является назначение цен на услуги ИС ((3 = (31Л)). где р -цена обслуживания запроса 1-го потребителя в ¿¡-м центре, либо цена выданного сообщения, либо выданного релевантного и т.п.).
Далее рассматривается одно из возможных практических приложений линеаризованных моделей координации управления информационными ресурсами в большой системе на примере отраслевой системы научно-технической информации (ОСНТИ). Решается комплекс проблем, связанных с определением рациональной структуры системы. Понятие структуры имеет два аспекта: с одной стороны - это взаимодействие и связи организационных элементов (информационных подразделений предприятий и организаций отрасли); с другой стороны - это размещение отраслевого информационного массива, технического обеспечения и распределение функций обслуживания на совокупности организационных элементов (структура специализации). Данные аспекты структуры тесно связаны: всякое измене ние специализации приводит к перераспределению потоков в информационной сети, что является условием сохранения целостности системы.
Задача управления потоками запросов в системе. Рассматривается система, которая состоит из: центра, управляющего системой; N источников запросов, описываемых элементами вектора
1 = .....N ;
М пунктов выполнения запросов, мощности которых заданы вектором з .....М:
М N
При этом ^ = Цс. = хс,
( X - совокупная интенсивность потока запросов, возникающих в СИТИ, дс - совокупная мощность обслуживания запросов). Известна также неотрицательная матрица (г )
13 1 = 1,2.....N 3 = 1.2..... М '
элемент которой г есть некоторое обобщенное (с учетом геогра-
фических, транспортных и иных особенностей) расстояние между О'-м пунктом ответа и 1-м источником запросов.
Для данных условий формулируется глобальная задача - минимизировать среднее время обслуживания запросов и локальные задачи - выбрать стратегию (ХП)Л = 1 2 м интенсивность потока от 1-го источника к З-му пункту ответа, минимизируя локальное время.
М
->1 )• 1-1.2.-..Н.
В данной формулировке локальной задачи отсутствует упоминание о векторе ц. По этой причине возможны конфликты источников запросов при решении своих локальных задач (при стремлении к достижению локальных целей).
Анализ координируемосш локальных задач. Сформулированы и доказаны утверждения, в соответствии с которыми существуют такие распределения ресурса между пунктами обслуживания, при котором достигаются одновременные решения локальных и глобальной задачи, а критерий эффективности достигает абсолютного экстремума.
Общая формулировка задачи координации предполагает усложнение рассмотренных задач путем учета: семантические характеристики передаваемой информации (зависимости средней выдачи на запрос и вероятности ответа от от 1 и 5); возникновение нелинейных зависимостей времени обслуживания от других факторов; пересечение множеств пунктов ответа и источников запросов; факта того, что количество пунктов обслуживания (М) и их размещение (г ) при проектировании системы неизвестны и подлежат определению; ряд географических, административных и иных ограничений. При постановке задачи и реализации алгоритма используются соотношения для линеаризованных характеристик информационного обслежива-ния, построенные в главе 2.
Алгоритм размещения информационных массивов, соответствующий общей задаче, реализован в программном комплексе, выполняющем четыре стадии обработки массива данных, описывающих отраслевые органы НТИ:
- нулевая стадия - инициализация процесса (определение глобальных характеристик X , Мс и др., а также проверка совместности ограничений на оперативность, отказы в обслуживании и на экс-
- 39 -
плуатационные затраты в системе);
- стадия 1 - формирование начального приближения структуры специализации, заключающееся в последовательном назначении пунктов обслуживания запросов до тех пор, пока не будут охвачены все элементы и будут выполнены ограничения или не будет исчерпан выделяемый ресурс;
- стадия 2 - расширение структуры (выполняется, если не исчерпан ресурс) - пошаговое усиление мощности имеющихся пунктов обслуживания либо образование новых пунктов обслуживания;
- стадия 3 - перераспределение размещенных ранее ресурсов с целью корректировки полученных на 1-й и 2-й стадиях' результат-тов.
Программный комплекс, реализующий модель и алгоритм двухуровневого управления структурой специализации и взаимодействия, допускает эксплуатацию в следующих режимах:
- оценка вариантов структуры специализации системы;
- синтез структуры для заданных ограничений на оперативность, вероятность обслуживания, затраты в системе;
- оптимизация размещения дополнительных ресурсов, выделяемых на развитие системы в целом. В этом случае данные обрабатываются модулями Стадий 2, 3.
Результаты эксперимента. В результате реализации алгоритма для ОСНТИ (на материалах ИНФОРМЭЛЕКТРО) был получен ряд вариантов оптимального размещения подсистем обслуживания в условиях иерархического управления распределением потока запросов. Анализ результатов показывает, что осуществляется построение структуры специализации, теоретически обеспечивающей по крайней мере 2 -5-кратное повышение оперативности СИТИ по сравнению с существующей структурой (централизованное хранение и обслуживание).
Приложение содержит ряд промежуточных данных и моделей, (модели роста словаря, оценка различительной силы терминов, соотношения для теоретико-множественных моделей) некоторые выводы, результаты моделирования и экспериментов, а также документы, подтверждающие внедрение результатов работы.
ЗАКЛЮЧЕНИЕ.
Основные результаты работы состоят в разработке, апробации
и практическом применении математических методов, комплекса моделей и алгоритмов для описания, оценки и оптимизации процессов управления информационными ресурсами на различных уровнях.
1. Рассмотрены основные тенденции развития информационных систем, сформулированы некоторые задачи управления информационными ресурсами и оптимизации информационных процессов и документальных систем. Предложены различные уровни описания - глобальный (система информационного обмена, включающая основную и информационную деятельность), средний (отдельные или связанные звенья информационной деятельности, входящие в систему информационного обмена), локальный (отдельный процесс или информационно-поисковая система) , а также управления - уровень потоков (информационных рынков), сообщений (поисковых операций), лексический (индексирования документов, создания и применения слова рей и тезаурусов). При рассмотрении управления на глобальном уровне в качестве одного из подходов используются элементы теории иерархических систем.
2. Рассмотрены теоретико-множественные и линейные описания информационных потоков, Установлена взаимосвязь ассоциативных матриц различных типов. Получены основные характеристики потоков, связанные со свойствами ассоциативных матриц, которые могут быть использованы для сравнительного анализа информационных потоков, например для оценки и прогнозирования роста словаря информационного массива АИПС. В качестве простейших моделей информационных потоков введены в рассмотрение псевдопотоки - гипергеометрический и биномиально-пуассоновский. Исследуются профильные информационные потоки, являющиеся простейшей моделью тематически связных множеств сообщений. Рассматривается ситуация взаимодействия пары профильных потоков с точки зрения взаимного персечения сообщений разных потоков. На примере документальных потоков (как реальных, так и имитируемых) иллюстрируются их характеристики и связь указанных характеристик с природой соответствующих потоков.
3. Макромодели сложных информационных процессов включают математический аппарат описания таких процессов, являющийся обобщением понятий профильного потока, оператора формирования
потока - многомерные профили, потоки, критерии релевантности, операторы формирования потоков. Задаются отношения порядка на множестве элементарных операторов, операции объединения и сцепления элементарных операторов, соответствующие параллельному или последовательному их применению к информационным потокам. Введено понятие оператора концентрации-рассеяния, являющегося инструментом универсального описания процессов распределения информационных потоков и сбора информации, в той или иной степени управляемых или стихийных. Предложенный аппарат позволяет описать .и проанализировать сложные структуры информационных процессов в системах информационного обмена (СИО), что достигается путем рассмотрения таких систем в двух аспектах - функциональном и организационном. Рассмотрена модель описания взаимодействия функциональных элементов, в конечном итоге описывающая информационный обмен результатами основной деятельности ПП на основе как непосредственных коммуникаций, так и через многократно взаимодействующие ИС. Определяются операторы обобщенной ИС, информационной сети, системы информационного обслуживания, представляющие собой особые разновидности операторов концентрации-рассеяния информации.
4. Проанализированы традиционные критерии оценки эффективности АИПС и основные переменные, в которых они выражаются. Предложены более адекватные задачам оценки эффективности АИПС координаты построения рабочих характеристик. Введено понятие вероятностной модели АИПС. опирающееся на ■ абстрактные представления о статистической взаимосвязи между истинной и формальной релевантностью документа запросу. На основе модели вводится универсальный обобщенный критерий оценки АИПС. Для случая теоретико-множественной модели АИПС обобщенный критерий принимает вид простой функции от степени близости профилей потребителя и системы. Разработана линейная модель индексирования и поиска, позволяющая связать интегральный критерий эффективности со структурой тезауруса и ассоциативными матрицами потока запросов и документального' массива.
С помощью модификаций линейной модели исследованы: влияние количества дескрипторов в тезаурусе (в общем случае) на обобщен-
ный критерий, различительная способность терминов индексирования для контролируемого словаря без связей терминов, влияние лексической несогласованности и тезаурусной несовместимости на качество поиска. Построена и исследована лю9ель диалогового поиска без корректировки и с корректировкой запроса (поискового предписания пользователя). Модель корректировки поискового предписания показывает сходимость процесса коррекции терминами и дескрипторами выданных релевантных документов к собственным векторам некоторых матриц, выражаемых через ассоциативные матрицы массива документов и тезаурусов.
5. Рассмотрены технический и экономический аспект процессов в различных звеньях и структурах глобальной системы информационного обмена, что является обобщением критериев оценки эффективности ИПС.
Рассматриваются обобщенные функции, связывающие информационные потоки на входе и выходе организационных и функциональных элементов и соответствующие им затраты основной и информационной деятельности. Сформулированы определения идеальных информационных процессов (систем), являющиеся обобщением ранее рассмотренных представлений об идеальной АИПС. Рассматривается идеальная система информационной деятельности, обеспечивающая абсолютную полноту информационного обмена, идеальная/субидеальная информационная система, обеспечивающая абсолютную точность информационного обслуживания. Сформулирована иерархическая совокупность и дана классификация оптимизационных задач, относящихся к различным участкам технологического процесса обработки информации и/или системы информационного обмена. Рассмотрены модели, описывающие на количественном уровне и с применением линеаризованных приближений для описания операций преобразования информационных потоков, ряд задач оптимизации взаимодействия потребителей информации с информационными системами в различных режимах и при различных ограничениях и предположениях. Рассмотрены задачи координации информационной деятельности при ее распределении между потребителями информации и информационными системами. Задача- координации состоит в формулировании локальных целей подсистем таким образом, чтобы при решении локальных задач было получено
глобально-оптимальное решение, соответствующее, например, минимуму совокупной информационной деятельности в СИО.
6. Впервые предложена, разработана и реализована документально-лексическая БД, первоначально предназначенная для многоаспектного статистического анализа информационных потоков и под-потоков на материале продуктов ЙС INIS. При анализе используется не только явная информация, содержащаяся в документах БД, но и связанная, содержащаяся в тезаурусе, реализованном в форме логического файла БД, и ряде других информационных структур. Развитые логические возможности БД позволили использовать ее в качестве прототипа других систем, в частности, отраслевой информационно-аналитической системы по стандартизации.
7. Осуществлено практическое применение разработанных моделей. также на двух уровнях - разработка и оптимизация конкретных информационных систем и баз данных; управление размещением информационных ресурсов в системе информационных центров. Приложения первого типа состоят в оптимизации структуры БД, словарей АИПС, оценке эффективности алгоритмов индексирования, разработке и реализации новых структур баз данных, пользовательских интерфейсов, стратегий поиска информации. В результате были разработаны и внедрены в эксплуатацию ряд баз данных, использующих в качестве информационного ресурса продукты службы INIS, а также интегральный банк данных полнотекстовой юридической информации.
В качестве задачи второго типа рассмотрен синтез и анализ структуры специализации и взаимодействия отраслевой СИТИ на основе модели и алгоритма двухуровневого иерархического управления информационными потоками. Алгоритм апробирован на реальных данных, описывающих отраслевую СИТИ по электротехнике (ИНФОРМЭЛЕКТ-РО), получен ряд вариантов, котрые могут использоваться в качестве исходных для проектирования и развития ОСНТИ.
СПИСОК РАБОТ, В КОТОРЫХ ОПУБЛИКОВАНЫ ОСНОВНЫЕ НАУЧНЫЕ РЕЗУЛЬТАТЫ, СОСТАВЛЯЮЩИЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ.
1. Автоматизированные информационные системы и сети // М.: МИФИ. - 1985. - 118 с.
2. Анализ критерия качества СИО / Попов И.И., Романенко
А.Г. // Электротехническая промышленность. Сер. Общеотраслевые вопросы. - 1971. - Вып. 375. - С. 20-22.
3. Анализ, оптимизация, моделирование гипертекстовых БД в сети INTERNET на примере БД "Проект Polyn" / Попов И.И.. Храмцов П.Б. // Материалы конференции "НТИ-95. Информационные продукты, процессы и технологии, Москва, 19-20 октября 1995 г.". - М.: ВИНИТИ. - 1995. - С. 96.
4. Вопросы оптимизации использования диалоговых систем в режиме сети / Павлов А.Н., Попов И. И. // Тез. докл. ХП-го На-учн. семин. "Системные исследования ГАСНТИ", Душанбе 26-30 о кт. 1981г.- М.: ВИНИТИ. - 1981. - С. 121.
5. Вопросы оптимизации использования диалоговых АИПС / Павлов А.Н..Попов И.И. // Информационные системы и автоматиз. системы НТИ. Труды VIII конф. молод..уч. и спец. ВИНИТИ.- М. ВИНИТИ. - 1983,- рукопись депон. ВИНИТИ 26.09.83 N 5308-83.
6. Вопросы проектирования и внедрения отраслевой сети ИПС иерархической структуры / Попов И.И., Романенко А.Г., Малинин С.Г. // Вопросы моделир. и оптимиз. информационного обслуж. Вып.4. - М.: Информэлектро. - 1973. - С. 110-124.
7. Вопросы разработки полнотекстовых баз данных на примере интегрального банка данных юридической информации - ЮРИУС // Сб. трудов Всероссийского Семинара "Фонды и базы данных научно-технической информации". - М.: ЦНИИАИ. - 1993. - С. 75.
8. Задачи и функции автоматизированной информационной системы по стандартизации / Петров А.В., Попов И.И., Цветаев С.М. // Стандартизация и качество в атомной промышленности. - 1983. -N 4 (19). - С. 11-14.
9. Интегральный бг 'к полнотекстовой юридической информации JURIUS и его реализация ч локальном и удаленном режимах / Попов И.И., Максимов Н.В. // Материалы конференции "НТИ-95. Информационные продукты, процессы и технологии, ■ Москва, 19-20 октября 1995 г. " - М. : ВИНИТИ. - 1995. - С. 97.
10.iИнтегральный подход к построению математического и информационного обеспечения процессов взаимодействия в совокупной отраслевой информационной системе / Богачев А.Н., Максимов Н.В., Попов И.И. // Тез. док. IX Научного семинара по системным иссле-
дованиям ГАСНТИ (г. Ереван, 17- 20 апр. 1979г.), часть II,- М.: ВИНИТИ. - 1979. - С. 164-170.'
11. Информационный банк полнотекстовой законодательной информации - ЮРИУС // Тез. докладов научно-методической конференции "Buisiness Tools" (Москва, 11-17 мая 1993 г.). - Pacific Coast University, Moscow Branch. - 1993. - С. 9-10.
12. Исследование качества алгоритма индексирования / Габри-элян P.A., Саруханян Л.Ф., Павлов А.Н., Попов И.И. // На-учн.-техн. инф. Сер. 2. - 1982. - N 9. - С. 7-10.
13. Математическая модель рассеяния информации / Попов И.И., Романенко А.Г., Сумароков Л.Н. // Вопросы моделир. и опти-миз. информационного обслуж. Вып.4. - М.: Информэлектро. - 1973. - С. 46-68.
14. Методы и средства программирования информационных систем // М.: МИФИ. - 1987. - 80 с.
15. Моделирование и оптимизация информационных систем / Бо-гачев А.Н., Добров В.Д., Максимов Н.В., Немировская B.C., Попов И.И., Попов С. В. // Серия ТС-26,- М.: Информэлектро. - 1980. -62 с.
16. Моделирование информационных систем / Попов И.И., Романенко А. Г. // М. : МИФИ. - 1979. - 76 с.
17. Моделирование информационных систем (теория и приложения) / Попов И.И.. Романенко А.Г. // Итоги науки и техники. Сер. "Информатика". Том. 5. - М.: ВИНИТИ. - 1981. - 237 с.
18. Модель и алгоритм двухуровневого иерархического управления информационными потоками в ОАСНТИ / Попов И.И., Романенко А.Г., Сумароков Л.Н. // Науч.-техн. инф. Сер.2. - 1974. - N 8. -С. 3-10.
19. Некоторые вопросы оптимизации комплектования информационных фондов / Попов И.И., Романенко А.Г. // Вопросы моделир. и оптимиз. информационного обслуж. Вып.4. - М.: Информэлектро. -1973. - С. 68-87.
20. Некоторые модели оценки и оптимизации информационных систем: математический аппарат моделирования // Науч.-техн. инф. Сер. 2. - 1981. - N 3. - С. 10-16.
21. Некоторые модели оценки и оптимизации информационных
систем: оценка качества лингвистического обеспечения. // Науч. -техн. ИНф. Сер. 2. - 1981. - N 6. - С. 7-14.
22. Некоторые теоретические и экспериментальные предпосылки оптимизации использования ППП в интегральных информационных системах / Павлов А.Н., Попов И.И. // Тез. докл. XIII Научн. семин. "Системные исследования ГАСНТИ", Тбилиси, дек. 1982,- М.: ВИНИТИ. - 1982. - С. 73.
23. О потенциальной эффективности информационного обслуживания / Попов И.И., Романенко А.Г.. Румянцев В.П., Сумароков J1.H.' // Доклады советских и амер. спец., представленных на 1-й Сов.-Амер. симпозиум по экон. эфф. инф-ции. - М.: ВНТИЦ. - 1976.
- С. 71-94.
24. Об одной модели оценки эффективности лингвистического обеспечения ИПС // Тез. докл. XI-го научн. семин. "Системные исследования ГАСНТИ", Алма-Ата, 13-17 окт. 1980г.- М.: ВИНИТИ. -1980. - С. 128-129.
25. Об одном подходе к оценке технической эффективности и анализу ИПС / Попов И.И., Попов C.B. // Науч.-техн. инф. Сер. 2.
- 1979. - N 6. - С. 14-21.
26. Обобщенная модель процессов информационного обмена / Попов И.И., Романенко А.Г., Сумароков Л.Н. // Вопросы моделир. и оптимиз. информационного обслуж. Вып.4. - М.: Информэлектро. -1973. - С. 20-46.
27. Оптимизация автоматизированного информационного обслуживания в научно-исследовательских организациях / Вязников Ю.В., Попов И.И., Павлов А.Н. // Вопросы атомн. науки и техн. Сер. Ин-форм., экон. и системы управления.- Вып. 4 ( 22) - 1983. - с. 36-40.
28. Оценка и оптимизация информационных систем // М. : МИФИ.
- 1981. - 86 с.
29. Предпоисковая адаптация пользователя к лексической среде диалоговой АИПС / Павлов А.Н., Попов И.И. // Науч.-техн. инф. Сер. 2. - 1984. - И 9. - С. 8-14.
30. Принципы построения терминальной системы оперативной адаптации запросов -.ТОПАЗ / Павлов А.Н., Попов И.И. // Проблемы создан, и примен. диалоговых инф. систем в АСУ, мат. науч-
но-техн. конф. Таллин, сент. 1984, ч. I,- Таллин. - 1985. - С.
23.
31. Принципы реализации и функционирования отраслевой информационной ИС по стандартизации на базе адаптивной СУБД / Кравченко А.Е., Петров A.B., Попов И.И., Цветаев С.М. // Стандартизация и качество в атомной промышленности. - 1984.- N 4. -С. 5-14.
32. Программная система для моделирования структуры и основных процессов в СИТИ (общий уровень описания) / Елтаренко Е.А., Малинин С.Г., Добров В.Д., Немировская B.C., Попов И.И., Романенко А.Г., Сумароков Л.Н. // Сб. рефератов-, статей, докладов 4-й Всесоюзной конференции "Проблемы развития ЕС НТИ в стране". - М.: ВИНИТИ. - 1975. - С. 237-239.
33. Разработка средств оптимизации диалогового документального поиска / Павлов А.Н., Попов И.И. // Математическое обеспечение систем принятия решений. - М.: Энергоатомиздат. - 1985. -С. 68-75.
34. Распределение частоты встречаемости терминов для линейной модели информационного потока / Попов И.И., Храмцов П.Б. // Науч.-техн. инф. Сер. 2. - 1991. - N 2. - С. 23-27.
35. Реализация ассоциативных поисковых стратегий в документально-лексической информационной базе / Попов И.И., Кравченко
A.Е., Павлов А. Н. // Науч.-техн. инф., Сер. 2. - 1985. - N 1. -С. 9-15.
36. Реализация диалогового доступа к лингвистическому обеспечению баз данных / Вязников Ю.В., Попов В.К., Попов И.И., Павлов А. Н. '// Тез. док. III Всесоюзной конференции "Диалог чело-век-ЗВМ, ДИАЛОГ-83" Протвино, 5 -7 июля 1983,- ИФВЗ. - 1983. -С. 87.
37. Рекомендации по системному моделированию ОСНТИ / Добров
B.Д., Малинин С.Г., Немировская В.С., Попов И.И., Сумароков Л.Н., Румянце в В.П., Романенко А.Г., Елтаренко Е.А., Завьялова Л.П. // М.: Информэлектро. - 1974. - 31 с.
38. Теоретико-множественное моделирование систем научно-технической информации / Попов И.И., Романенко А.Г., Сумароков Л.Н. // Вопросы информационной теории и практики. Вып.
- 48 -
33-34. - M.: ВИНИТИ. - 1978. - С. 16-64.
39. Экспериментальная оценка качества индексирования / Павлов А. Н., Попов И. И. // Науч.-техн. инф. Сер. 2. - 1983. - N 9. - С. 13-20.
40. Description of internals of structure of the integrated Data Bank for full-text legal information // 2-nd East-West international on-line information meeting proceedings, Moscow, Russia, 30 sept. - 2 oct. 1992. - Moscow.: ICSTI. - 1992. - C. 147-152.
-
Похожие работы
- Исследование и разработка моделей и алгоритмов структурно-логической обработки информации в документальных информационно-аналитических системах
- Исследование и разработка моделей и средств обеспечения документального поиска в распределенных гетерогенных информационных ресурсах
- Методики, модели и алгоритмы комплексной многокритериальной оптимизации автоматизированных технологических систем
- Моделирование и разработка средств и технологий поиска документальной информации
- Повышение эффективности автоматизированного документального поиска в гипертекстовых ресурсах Интернет