автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Моделирование динамики документальных информационных массивов журнальных публикаций

кандидата технических наук
Иванов, Сергей Александрович
город
Москва
год
1992
специальность ВАК РФ
05.13.17
Автореферат по информатике, вычислительной технике и управлению на тему «Моделирование динамики документальных информационных массивов журнальных публикаций»

Автореферат диссертации по теме "Моделирование динамики документальных информационных массивов журнальных публикаций"

оссийская адемия наук

министерство науки, высшей школы и технической политики российской федерации

ВСЕРОССИЙСКИЙ ИНСТИТУТ НАУЧНОЙ И ТЕХНИЧЕСКОЙ ИНФОРМАЦИИ

(ВИНИТИ)

На правах рукописи

ИВАНОВ Сергей Александрович

МОДЕЛИРОВАНИЕ ДИНАМИКИ ДОКУМЕНТАЛЬНЫХ ИНФОРМАЦИОННЫХ МАССИВОВ ЖУРНАЛЬНЫХ ПУБЛИКАЦИЙ

Специальность — 05.13.17 Теоретические основы информатики

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

МОСКВА 1992

Работа выполнена во Всероссийском Институте научной и те> нической информации.

Официальные оппоненты:

доктор технических наук, профессор ТАРАСОВ Евгений Васильевич

кандидат технических наук ЧЕРНЫЙ Аркадий Иванович

Ведущая организация: Московский государственный универа тет имени М. В. Ломоносова

Защита состоится «Л$». О¿1 е^Ь^ 1992 года, в часов на заседании Специализированного Совета Д 003.02.01 в Всероссийском Институте научной и технической информации п адресу: 125219, г. Москва, ул. Усиевича, д. 20-а.

С диссертацией можно ознакомиться в библиотеке Всеросст ского Института научной и технической информации.

га2 ^ »

Автореферат разослан «<<■ ~> » ( Л13<у1А999 года.

Ученый секретарь Специализированного совета ПЕТРОВА

доктор технических наук Лидия Андреевн

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В настоящее время основным каналом научной коммуникации, по которому передается до 70 % всей научной и технической информации, является мировая система периодических и продолжающихся изданий. Эта система сложилась за последние три столетия и сохраняет свою ваттную роль и сегодня.

Феноменом этой системы научной коммуникации, на который впервые обратил внимание С.Брэдфорд ( 1934 г. ), является рассеяние публикаций по определенной теме в широком круге изданий. Это явление может быть представлено в виде гиперболического рангового распределения журналов по числу опубликованных в них статей по одной теме, известного как эмпирический закон Ципфа. Форма этого распределения слабо зависит от тематической области отбираемых журнальных статей. Она определяется структурой мировой системы научной коммуникации.

Эта система, являющаяся в настоящее время основным формальным каналом научной коммуникации между учеными, имеет даровой и общенаучный характер. Изучение закономерностей функционирования системы научной коммуникации представляет гак теоретический интерес для понимания ее функционирования, гак и практический - для улучшения информационного обслужи-зания ученых.

Изучение системы периодических и продолжающихся изданий з настоящей работе основано на выделении целостного информа-щонного объекта - полной библиографии по определенному науч-юму направлению, содержащей в основном все публикации по шрсделениой теме. Статистические закономерности таких объ-жтов позволяют сделать заключение о структурных свойствах игровой системы научной и технической информации.

Цель работы. Целью диссертационного исследования явля-)тся разработка математической модели динамики массива згур-гальных публикаций по новой теме в мировой системе периода-геских и продолжающихся изданий.

Для достияения поставленной цели в диссертации решаются следующие задачи:

а) проводится статистический анализ реальных информационных массивов;

б) разрабатывается стохастическая модель дикамики публикаций по новой теме £ системе периодических и продолжающихся изданий;

в) создается имитационная модель роста массива публикаций для получения численных результатов на ЭВМ;

г) определяется оптимальная траектория роста публикаций по новой теш на основании принципа максимума энтропии.

Методы исследования. Для разработки стохастической модели динамики информационного массива используются результаты теории случайных ветвящихся процессов, теории энтропии для вероятностных распределений, теории имитационного моделирования. Информационные метода используются при количественном анализе полных библиографий.

Научная новизна. Предложен случайный ветвявдйся процесс с непрерывным временем, рассматривающий динамику роста численности публикаций в журналах по новой теме как взаимодействие двух противоположно направленных тенденций: концентрации и рассеяния статей в различных журналах.

На основании математического анализа этой модели полученн аналитические выражения для рангового и частотного распределений журналов по числу опубликованных в них статей по определенной теме, увеличения общей численности публикаций во времени.

Использование энтропийного подхода позволило определил наиболее вероятное ранговое распределение журналов по числу опубликованных в них статей по одной теме.

Практическая ценность. Результаты исследований могут быть использованы для построения теории научной коымуникаци Изученные явления и предложенная модель имеют значительно большую область применения, чем рассмотренная в диссертацио ной работе. Ранговые распределения гиперболического типа широко распространены в различных областях социальных наук.

Реализация результатов. Результаты работы носят тооре-гический характер и могут быть использованы для построения теории научной коммуникации.

Основные результаты излояенн в 7 публикациях.

Основные положения диссертационной работа докладывались на семинарах в Отделах информатики и теоретических и прикладных проблем информатики ВИНИТИ в 1980 - 1990 г.г., на восьмой научно - технической конференции молодых ученых и специалистов ВИНИТИ "Иж]гсрглациошшв процессы и автоматизированные системы НТИ" в 1982 г., на заседании семинара кафедры научной информации 1ЛУ "Информационные процессы и системы" в 1986 г.

Структура -работы. Диссертация состоит из введения, трех глав, заключения, списка литературы, содержащего 74 источника. Всего 144 страницы, 34 рисунка, 26 таблиц.

СОДЕРЕШЕ РАБОТ!!

В введении раскрывается значение проблемы исследования объективных закономерностей мировой системы научной коммуникации для обоснования теоретических основ информатики, определяется цель работы и конспективно излагается ее содержание .

В первой главе кратко излагаются основные проблемы теории научной коммуникации. Кратко описывается процесс появления публикаций по новой теме в мировой системе периодических и продолжающихся изданий. Система научной коммуникации предоставляет наибольшие возможности каждому ученому для публикации статей по интересующей научное сообщество тематике. Публикации по новой теме появляются как в ограниченном числе профильных изданий, ориентированных на ученых, специализирующихся в данной области, так' и в большом числе непрофильных изданий, предназначенных для ученых и специалистов смежных и иных специальностей.

На основании предположений С.Наранана ( 1970 г. ) о динамике увеличения числа публикаций по новой теш в системе периодических и продолжающихся изданий выделено два взаимосвязанных процесса, происходящих одновременно: 1-2 3

а) первый, определяющий увеличение числа публикаций

во времени в тех изданиях, где ранее были уже опубликованы ■ статьи по данной теме;

б) второй, ответственный за увеличение числа периоди-. ческих изданий во времени, где начинают появляться статьи по рассматриваемой теме. -

Эти два процесса происходят, одновременно и определяют динамику распространения публикаций по новой теме в мировой системе периодических и продолжающихся изданий. Для математического описания используется теория случайных ветвящихся процессов. Впервые такое описание било предложено Г.КЬюм ( 1924 г. ) для построения математической теории эволюции биологических видов, которая в силу ряда причин не получила должного развития в настоящее время.

Результатом такого процесса будет информационный мае-сив публикаций по определенной тематике. В информатике им будет полная библиография, состоящая, по мнению составителей, из всех научных документов, относящихся к определенному научному направлению. Такие библиографии создаются в период наибольшего интереса научного сообщества к данной тематике. Известно относительно небольшое число таких библиографий.

Наибольшее значение в оценке информационного массива представляют его динамические и статистические характеристики ( увеличение публикаций во Бремени и рассеяние статей по периодическим и продолжающимся изданиям ).

Математическая модель формирования информационного массива журнальных публикаций построена на основании случайного процесса "чистого размножения" Г.Юла, В ее основе лезкат следующие предположения:

а) увеличение числа периодических изданий во вромени происходит с постоянной относительной скоростью с^ , это соответствует экспоненциальному увеличению числа журналов, где опубликована хотя бы одна статья по данной теме;

б) увеличение числа статей в отдельном издании с момента появления в нем первой статьи происходит с постоянной относительной скоростью Л , это соответствует экспо-

ненциальному увеличению числа статей;

в) относительные скорости роста статей по данной теме в различии: периодических изданиях одинаковы по величине и определяются динамикой данного научного направления.

Несмотря на то, что скорости роста статей в различных изданиях одинаковы, первые статьи в ник появляются в различные моменты времени, определяемые процессом увеличения числа журналов, что приводит к неравномерному распределению статей по журналам.

На основании этих предположений сконструирован составной случайный ветвящийся процесс, позволивший получить аналитические выражения для рангового и частотного распределений журналов.

Ранговое распределение журналов по чиолу опубликованных статей по определенной теме в произвольный момент времени

имеет вид: /О^

где о

математическое ожидание числа статей в журнале I ранга ко времени ~Ь , Д - относительная скорость роста числа статей в журнале,

у - показатель распределения, ^ = !(Ъ , — - относительная скорость роста числа журначов,

Для журналов с небольшим числом статей получено аналитическое выражение частотного распределения в форт А.Лотки:

Р# [¿) • Л £>(£,¿-4) с

~ относительное число изданий, в каждом из кото- , рих опубликовано ровно по ¿' статей, с1 - показатель распределения, ^ = I/ ^ , Бет - функция.

1-3

Увеличение общего числа публикаций во времени происходит но следующей зависимости:

где V

М/ч Н)" схематическое огоидание числа статей » массиве ко времени -I • Аллоштрическая зависимость мелзду числом статей и числом журналов, где эти статьи напечатаны, приближенно выражается формулой ^^

^ ~ 2 X при Я = .

где ^ - общее число статей, ¿С - число журналов. Рассмотрены некоторые другие случаи распределения журналов по числу опубликованных статей, когда при формировании массива по новому научному направлению преобладают либо процессы концентрации статей в раде профильных изданий, либо их рассеяние по широкому кругу изданий. Для этих случаев также получены аналитические.виражения ранговых и частотных распределений.

В случае преобладания процессов концентрации статей, в профильных изданиях ранговое распределение журналов представляется геометрическим распределением:

сг г

НЦМ-е (

где а '

математическое окидание числа статей в журнале ^ ранга,

•Я - относительная скорость роста статей в журналах,

£С - линейная скорость увеличения числа изданий. 3 случае преобладания процессов рассеяния статей по различным изданиям рангоЕое распределение аппрокск/ируется логарифыической зависимостью:

Щ1)

гло

МС\tb) ~ стоматическое ожидание числа статей в :курна-ла ¿- ранга ко времени £ , ^ - относительная скорость роста числа журналов, V - линейная скорость увеличения числа статей в журналах.

Полученные распределения позволили предположить, что twaco ранговых распределений журналов значительно шире, чем представленный эмпирическим законом Дипфа.

Во второй главе приводятся результаты исследований зтатистически устойчивых распределений информационных массивов.

Для подтворзденкя теоретических положений бит про-1нализированы чотнро полных библиографии, опубликованные з научной литературе ведущими специалистами в различных збластях науки - математика, социологии и информатике. )пределялись относительные скорости роста числа статей и журналов во времени, параметры ранговых и частотных рас-тределений журналов. 11а основании полученных данных было годтверздено существование соотношения ^ ~ JL /<р , юлученного из теоретической модели. Форт гиперболичес-сого распределения определяется динамикой информационно-х> массива.

Исследовались библиографии научных трудов ведающихся математиков А.Н.Колмогорова и Ю.В.Линника. Было установлено, 5то для этих ученых, работавших в фундаментальных областях гауки, наблвдается явление концентрации публикаций в огра-[ичонном число иэдатй.

В области информатики изучалось распределение стран ю числу выходящих периодических изданий на основании ;ашшх из реферативного журнала "ШЗОРЖТЖА". Было уста-говлеко, что для этой области науки характерна концентра-сия периодических изданий в ряде развитых в научном и тех-ическом отношении стран.

1-4

Проведению'! статистический анализ реальных информационных массивов подтвердил правильность теоретических положе-

зависидасть медду динамическиш и статистическими параметрами полных библиографий.

В третьей главе рассматриваются вопросы моделирования на ЭВМ процесса роста числа журнальных публикации по новой теме.

Имитационная модель с использованием метода Монте-Карло воспроизводит одну из возможных реализаций роста массива на основании двух предположений:

а) увеличивается число статей во времени в тех изданиях, где ранее были опубликованы статьи по,этой теме;

б) увеличивается число изданий, где появляются статьи по данной теме.

Генератором случайных чисел разыгрываются величины случайных интервалов медду последовательными событиями появления новых статей и новых журналов. Распределения длительностей временных интервалов мовду последовательными событиями появления статей в отдельном журнале и событиями появления первых статей в новых изданиях представляются показательными распределениями, значения параметров которых зависят от состояния процесса. Получаемые случайные интервалы складываются во временные последовательности, а появляющиеся публикации формируют информационный массив.

Результатом моделирования является ранговое распределение журналов, которое может бить аппроксимировано в двойных' логарифмических координатах прямой линией с тан-генсс

ших рангов

при заданном размере массива при усреднении по 10, 30 реализациям процесса. С увеличением числа реализаций среднеарифметические значения числа статей стремятся к постоянным значениям.

ний,; изложенных в первой главе, в частности, количественную

где

При статистическом анализе большого числа информационных массивов в различных областях науки значение параметра ^ рангового распределения журналов имеет значение близкое к единице. В теоретической модели нет оснований для предпочтительного выделения случая ^ =1,0. Объяснение этого феномена может быть связано с предположением о том, что процесс рассеяния публикаций по широкому кругу изданий уравновешивается их концентрацией в ограниченном числе профильных изданий.

Это явление можно интерпретировать следующим образом: распространение статей по новой тепе в существующей системе периодических и продолжающихся изданий происходит по наиболее неопределенной траектории: используются все возможности для опубликования новых научных результатов, интересующих научное сообщество. Система научной коммуникации предоставляет эти возможности наибольшего числу ученых.

Такая траектория, описывающая появление во времени новых публикаций по интересующей научное сообщество тематике, должна обладать наибольшей неопределенностью. Сформулирована задача о максимальной дисперсии процесса ( рассеяния публикаций по периодическим изданиям ) в терминах энтропии случайного ветвящегося процесса увеличения информационного массива. Энтропия случайного процесса максимальна в том случае, когда распределение статей по журналам имеет наибольшую неопределенность.

Вычислена энтропийная Лункщш случайного процесса в зависимости от значений параметра ^ для массивов одного размера ( одинакового числа статей ). На ЭВМ вычислялись вероятности пойй.тадая статей* б различных изданиях и находилось значение' энтропии. Затем определялось значение параметра ^ , при котором величина энтропии максимальна. Энтропия вычислялась по формуле:

при этом выполнялось условие

где б^р^) - вероятность появления ¿'статьи в^ журна-' ле ко времени ^ ,

МпН) - величина информационного массива ( число статей ко времени £ ), ^ - параметр распределения.

На рисунка I показано изменение волячииы энтропии как функция от ¡С для массивов различных размеров, точность определения

Нф - 0.1

Максимальное значение энтропийная функция достигает при % = 1,0. В системе периодических и продолжающихся изданий при отсутствии ограничивающих факторов ранговое распределение журналов по числу опубликованных статей по одной тема представляется гиперболическим распределением с ~ 1,0 как наиболее вероятным среди других гиперболических распределений.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Предложена стохастическая модель динамики информационного массива журнальных публикаций по новой теме в мировой системе научной коммуникации, основанная на двух взаимосвязанных процессах: концентрации статей в ограниченном числе профильных изданий и их рассеяния в различных журналах.

2. На основании предложенной модели получены аналитические выражения для рангового и частотного распределений , журналов. В частности, получены выражения для распределения журналов в виде эмпирического закона Ципфа.

3. Исследованы полные библиографии научных публикаций по различным научным направлениям и установлены количественные зависимости мегэду статистическими и динамическими характеристиками таких массивов.

4. Исследованы библиографии трудов видающихся современных математиков. На конкретном материале показано, что в этом случав имеет место концентрация статей в профильных периодических изданиях.

Энтропия

60

40

20

НТ* НГ6 Г.0 10 10* Ю3^

Рис. I» Зависимость энтропии от параметра ^ для массивов с различным числом статей ( 1 - 10 , 2 - 20 , 3 - 30 ).

5. Предложенная модель использовалась для анализа распределения огран по числу выходящих изданий по информатике. Показано, что для информатики характерно явление концентрации журналов в ряде наиболее развитых в научном и техническом отношении стран.

6. Разработана имитационная модель динамики информационного массива, приведены результаты моделирования, подтверждающие правильность теоретической модели.

7. Определена оптимальная траектория роста информационного массива во времени исходя из предположения о максимальном значении энтропии для такого процесса. Установлено, что ему соответствует гиперболическое ранговое распределение журналов с у - 1,0. В этом случае система научной коммуникации предоставляет возможности наибольшему числу ученых для публикации статей по новой тематике.

6. Ранговые распределения журналов по числу опубликованных статей отражают структурную организацию системы периодических и продолжающихся изданий.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Иванов С.А. Рассеяние журнальных публикаций и формирование списка трудов ученого// Научно - техническая информация. Сор. 2. - 1984. - № 6. - С. I - 7.

2. Иванов O.A. Ранговые распределения в информатике// Научно - техническая информация. Сер. 2. - 1985. - й 12. -С. 14 - 19.

3. Иванов С.А. Исследование журнальных публикаций, объединенных одной тематикой// Научно - техническая информация. Сер. 2. - 1986. - Я 12. - С. 20 - 26.

4. Иванов С.А. Частотные распределения в информатике// Научно - техническая информация. Сер. 2. - 1988. - № 4. -С. 21 - 25.

5. Иванов С.А. Новое научное направление в системе коммуникаций// Научно - техническая информация. Сер. 2. -1988. - № 7. - С. 2 - 5.

6. Иванов С.А. Оптимальная динамика массивов журнальных публикаций по новой теме// Научно - техническая информация. Сер. 2. - 1990. - № 7. - С. 18 - 21.

7. Иванов С.А. Теоретическое обоснование эмпирического закона распределения ученых по продуктивности А. Лотки// Научно - техническая информация. Сер. 2. - 1991. - № II. -С. 6 - 13.