автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Информетрическое моделирование процесса обращения к электронным информационным ресурсам
Автореферат диссертации по теме "Информетрическое моделирование процесса обращения к электронным информационным ресурсам"
На правах рукописи Писляков Владимир Владимирович
ИНФОРМЕТРИЧЕСКОЕ МОДЕЛИРОВАНИЕ ПРОЦЕССА ОБРАЩЕНИЯ К ЭЛЕКТРОННЫМ ИНФОРМАЦИОННЫМ РЕСУРСАМ
Специальность 05 13 18 - Математическое моделирование, вычислительные методы и комплексы программ
Автореферат диссертации на соискание учено?! степени кандидата физико-математических наук
Казань-2008
1 6 ОКТ 2008
003448436
Работа выполнена в НИИ математики и механики им. Н. Г. Чеботарева Казанского государственного университета
Научный руководитель: доктор физ-мат наук, профессор,
заслуженный деятель науки РТ Елизаров Александр Михайлович
Официальные оппоненты: доктор физ -мат наук, профессор
Сотников Александр Николаевич
доктор технических наук, профессор Захаров Вячеслав Михайлович
Ведущая организация: Всероссийский институт научной и технической
информации Российской академии наук (ВИНИТИ РАН), г Москва
Защита состоится «31» октября 2008 года в 14-00 на заседании Диссертационного совета Д 212 079 01 в Казанском государственном техническом университете им А Н Туполева по адресу 420111, Казань, ул К Маркса, д 10
С диссертацией можно ознакомиться в научной библиотеке Казанского государственного технического университета им А Н Туполева
Автореферат разослан «29» сентября 2008 г
Ученый секретарь диссертационного совета
доктор физ -мат наук, профессор г/7У) ^ ^ Данилаев
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы. Статистический анализ научной и образовательной деятельности получает все большее распространение как в мировой, так и в отечественной практике1 Одним из наиболее важных направлений такого анализа является выявление и изучение статистических закономерностей производства, поиска и использования информации — направление, выделенное в отдельную молодую отрасль, информетрию
Хорошо известным методом изучения информационных потоков является информетрическое моделирование — математическое моделирование информационных процессов с использованием информетрических законов Такое моделирование заключается в выявлении эмпирических закономерностей, наблюдаемых в значительном числе информационных процессов, облечении их в строгую математическую форму и распространении данных моделей на остальные процессы, однотипные исследованным
Отличительное свойство применения математических моделей к социальным процессам (которыми являются процессы производства и использования научной информации) — возможность не интересоваться глубинными причинами наблюдаемых закономерностей и приводящими к ним явлениями, происходящими на микроуровне Несмотря на то что были предложены объяснения возникновения ряда информетрических законов («успех рождает успех», «принцип наименьших усилий», «принцип максимума энтропии»), собственно информетрическое моделирование строится без оглядки на микроуровень, с использованием закономерностей, обнаруженных в эмпирике, как данного Поэтому актуальной проблемой информетрического моделирования, проводимого на конкретном информационном процессе, является определение, насколько применим к рассматриваемому процессу, насколько корректно и точно выполняется тот или иной информетрический закон, каковы особенности его действия в данном случае и каковы основные коэффициенты, получаемые в процессе приближения экспериментальных данпыч используемой моделью Обобщение подобного рода исследований на целом ряде однотипных информационных процессов позволяет говорить о той или иной степени применимости изучаемых законов к произвольному аналогичному процессу Настоящее исследование связано с проблемой применимости информетрических моделей к процессу использования электронной информации
1 Main Science and Technology Indicators - Vol 2008/1 - OECD, 2008 - 105 p , National Science Board Science and Engineering Indicators - 2008 - Vol 1-2 - Arlington, VA National Science Foundation, 2008, Pislyakov V Assessing the Relative Standing of Russian Science through a Set of Citation and Publication Indicators / V Pislyakov, L Gokhberg // Excellence and Emergence Book of Abstracts 10th International Conference on Science and Technology Indicators -Vienna. ARC, 2008 - P 400-403, Индикаторы науки 2007 Статистический сборник - М ГУ-ВШЭ, 2007 - 341 с, Индикаторы образования 2007 Статистический сборник - М ГУ-ВШЭ, 2007 - 174 с
Таким образом, актуальность работы заключается, прежде всего, в том, что она соединяет информетрические и библиометрические методы, набирающие силу и авторитет в исследованиях науки и образования, и электронные информационные ресурсы, завоевывающие в наше время все большую популярность и получающие все более широкое распространение Тем самым в настоящей диссертационной работе объединяются актуальные методы исследования и современный объект, к которым эти методы применяются В ней также затрагиваются такие насущные вопросы, как трактовка статистических показателей чтения онлайновых ресурсов в вузе, выделение наиболее важных, «ядерных» изданий из многотысячной их совокупности, построение наиболее оптимального фонда электронных документов при минимизации затрат
Целью диссертационного исследования является применение информетри-ческого моделирования к процессу обращения к электронным информационным ресурсам
Задачами исследования являются
• информетрическое моделирование при помощи законов Брэдфорда, Паре-то, Леймкулера, Лотки, Ципфа на основе экспериментальных данных об обращении к электронным информационным ресурсам, полученных в Государственном университете - Высшей школе экономики (ГУ-ВШЭ),
• получение в процессе приближения моделей к эксперименту основных их коэффициентов,
• анализ применимости информетрических законов для моделирования спроса на электронные документы и иссчедоваиие с точки зрения информетрии особенностей, характерных для такого рода спроса,
• выделение при помощи законов Брэдфорда, Парето и индекса Джини «ядра», т е наиболее спрашиваемых научных журналов в электронной подписке вуза
< Методы исследования. В диссертационно Л заботе используются статистические меюды, методы математического моделирования, методы интегрального и дифференциального исчисления, методы мониторинга обращений к онлайновым базам данных
Современные средства анализа процесса обращения к документальным онлайновым базам данных позволяют с высокой степенью достоверности получить статистические показатели чтения пользователями электронных изданий, для того чтобы в дальнейшем применять их в процессе моделирования В качестве таких данных в настоящей работе выступает статистика использования электронных онлайновых источников в ГУ-ВШЭ Сбор и анализ этой статистики производился на протяжении всего 2004 г Таким образом, имеется «живой» экспериментальный набор данных информетрического процесса, обладающий достаточным объемом для репрезентативности результатов информетрического моделирования (всего зафиксировано 41959 обращений к статьям из 2590 различных изданий, размещенных в базах данных)
Для каждого информетрического закона осуществлялось приближение его коэффициентов для наилучшего совпадения с экспериментальными данными Регрессионный анализ при определении оптимальных коэффициентов инфор-метрической модели проводился при помощи статистического пакета SPSS версий 12 0 и 14 0 Степень совпадения модели и экспериментальных данных и, как следствие, степень применимости моделирования при помощи того или иного информетрического закона оценивались (там, где это возможно) при помощи коэффициента детерминации (R-квадрат)
Среди авторов, на чьи методологические разработки опирается настоящее диссертационное исследование, необходимо упомянуть С Д. Хайтуна, А И Яблонского, В С Brookes, Q L Burrell, L Egghe, E Garfield, S Naranan, R Rousseau, D J Urquhart, В С Vickery.
Положения, выносимые на защиту:
• методология применения основных информетрических законов (Брэдфорда, Парето, Леймкулера, Лотки, Ципфа) для математического моделирования процесса обращения читателей к электронным изданиям,
• доказательство применимости основных информетрических моделей к экспериментальным данным по обращению читателей к электронным информационным источникам,
• сформулированный подход к применению основных информетрических моделей для выявления «ядра литературы» (наиболее важных информационных источников),
• построенная кривая Леймкулера — Лоренца, вычисленный индекс Джини и найденное «ядро литературы» для конкретных экспериментальных данных по обращению читателей к электронным информационным источникам
Научная новизна настоящего исследования определяется несколькими аспектами Прежде всего, в случае большинства информетрических законов (Брэдфорда, Леймкулера, Лотки, Ципфа) нам неизвестны труды предшественников, которые изучали бы применимость этих законов для моделирования процесса использования информации в электронной, онлайновой среде Кроме того, столь объемный экспериментальный массив (41959 обращений к статьям из 2590 различных изданий) практически невозможно получить в «традиционном» печатном окружении, а потому вообще существует крайне мало исследований, в которых проводилось бы информетрическое моделирование на таком солидном материале Наконец, использование для эксперимента онлайновых библиотек и систем учета статистики обращений к последним является более точным и достоверным
К научной новизне данной диссертационной работы также относится введение в отечественный научный оборот ряда современных зарубежных источников по информетрии, которые прежде либо цитировались в России крайне редко, либо вообще не рассматривались
Достоверность результатов работы в значительной степени определяется достоверностью исходного экспериментального массива, собранного методом анализа лог-файлов системами учета использования электронных ресурсов Этот метод свободен от многих технических и методологических погрешностей других способов оценки обращений к периодическим изданиям (опросы, статистика возвратов журналов на полки, статистика выдач периодики на абонемент), а потому дает авторитетную экспериментальную базу для исследования Кроме того, достоверность полученных результатов обеспечивают точные математические методы, применяемые в исследовании, а также профессиональные программные пакеты обработки и анализа статистической информации, использованные нами при информетрическом моделировании
Практическая ценность диссертационного исследования заключается в возможности применения его методики и основных выводов к созданию и регулированию оптимального фонда онлайновой периодики учебной или научной организации, выделению информационного «ядра» и тех источников, которые являются ключевыми для обеспечения научной и образовательной деятельности.
Наиболее существенные научные и практические результаты, полученные лично соискателем:
• собрана годичная статистика использования электронных ресурсов в Государственном университете - Высшей школе экономики,
• уточнена методика Л Эгге определения оптимальных параметров инфор-метрической модели Брэдфорда,
• предложено два метода оценки ядра литературы по кривой Брэдфорда,
• получены оптимальные коэффициенты моделей Брэдфорда, Парено, Леймкулера, Лотки, Ципфа в применении к экспериментальным данным о процессе обращения к электронным онлайновым источникам,
• предложен и обоснован метод корректировки данных и трактовки понятия числа источников с заданной продуктивностью для информетрической модели Лотки,
• предложен и обоснован метод сглаживания графика модели Ципфа и корректного отображения ранга источников информетрического процесса с малой продуктивностью,
• проведено сравнение характеристик кривых Леймкулера и индексов Джини, полученных численным интегрированием и приближением аналитической моделью соответственно,
• двумя различными методами выделено компактное информационное ядро читательского спроса, определяющее основные направления информационной поддержки научной и образовательной деятельности вуза
Апробация работы. Результаты диссертации по мере их получения докладывались и обсуждались на семинаре Отделения математического моделиро-
вания НИИ математики и механики им Н Г Чеботарева Казанского государственного университета (2007 и 2008 гг, руководитель проф А М Елизаров) и на семинаре «Математические методы анализа решений в экономике, бизнесе, политике» (2007 г, Государственный университет - Высшая школа экономики, руководители проф Ф Т Алескеров и проф В В Подиновский), на международных конференциях «SCIENCE ONLINE электронные информационные ресурсы для науки и образования» (2003, 2004, 2005 и 2007 гг) и «Крым Библиотеки и информационные ресурсы в современном мире науки, культуры, образования и бизнеса» (2004 и 2005 гг )
Результаты проведенного исследования были использованы при формировании концепции комплектования электронными ресурсами библиотеки ГУ-ВШЭ В 2007 г за успехи в трудовой деятельности автор диссертации был отмечен Благодарностью министра экономического развития и торговли
Публикации. Результаты исследования опубликованы в 5 работах в четырех статьях в журналах из Перечня, рекомендованного ВАК для публикации результатов диссертационных работ, одна из статей перепечатана в виде главы в коллективной монографии Кроме того, результаты опубликованы в ряде сборников трудов конференций Список публикаций приведен в конце автореферата Содержание, структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы и трех приложений, содержит 7 таблиц и 20 рисунков Общий объем диссертации 155 страниц Библиографический список состоит из 134 наименований работ отечественных и зарубежных авторов
Автор выражает признательность своему научному руководителю, доктору физ-мат наук профессору А М.Елизарову, благодаря сотрудничеству и плодотворным дискуссиям с которым данный труд смог увидеть свет, а также директору библиотеки ГУ-ВШЭ Н Ю Максимовой, осуществлявшей неизменную поддержку усилий автора все время написания диссертации
СОДЕРЖАНИЕ РАБОТЫ
Во введении производится постановка проблемы, определяется понятие информетрического моделирования и излагается краткая история вопроса Подчеркивается основная проблема математического моделирования социальных процессов — вопрос о переносимости моделей с процессов одного рода на другой Типичная сложность, с которой сталкивается ученый в процессе информетрического моделирования, — это переход от одних условий, в которых тестируется модель, к качественно или количественно другим Это может быть связано с изменением масштаба исследования (пример переход от изучения рассеяния по журналам статей, написанных исследовательской лабораторией, к рассеянию публикаций целой страны), сменой дисциплинарной области, в которой проис-
ходит информационный процесс (анализ цитирований статей по математике или по биологии), или заменой самого процесса на аналогичный (переход от изучения статистики чтения какого-либо журнала к статистике его цитирования)
С одной стороны, любой из процессов, подлежащих информетрическому моделированию, сходен с другим, являясь собственно «информационным процессом», или точнее, в терминологии Л Эгге, «информационным процессом производства» (Information Production Process, IPP2) В нем можно выделить пары «источники — продукты» Например, при написании статей «источником» является автор, «продуктом» — публикация, при изучении рассеяния статей по журналам «источник» — это журнал, а «продукт» — вновь статья, в ходе анализа цитируемости продуктом будет цитирование, а источником — цитировавший или цитируемый автор, статья или журнал и т д Данное разделение источник — продукт является фундаментальным и неотъемлемым от понятия об информационном процессе производства С другой стороны, нельзя априорно, без специальных исследований утверждать применимость информетрического закона для всех типов «информационных процессов производства» на основании его подтверждения для одного из таких процессов
Далее во введении отмечается, что все законы информетрии, с использованием которых будет проводиться информетрическое моделирование, исходно были открыты на информационных процессах иной природы, чем те, применимость к которым исследуется в диссертационной работе В диссертации моделируется обращение читателей к информационным источникам, т е процесс использования информации, в то время как законы Брэдфорда и Леймкулера были открыты для рассеяния статей по журналам, закон Лотки — для распределения статей по авторам, закон Ципфа сформулирован в лингвистических исследованиях частоты употребления слов, а правило Парето — вообще при изучении распределения доходов среди населения Сказанное определяет один из главных фокусов диссертационного исследования — вопрос о том, насколько корректно можно совершить перенос информетрического моделирования от «исходных» информационных процессов, давших рождение изучаемым моделям, к процессу обращения к документам, информационным ресурсам
Кроме того, особое внимание уделяется тому месту, которое занимает процесс использования информации вообще и электронной информации в частности Этот процесс является вторичным информационным процессом прежде чем информацию использовать, ее необходимо создать Это позволяет исследователям говорить о моделировании спроса на информационные источники как об особом виде информетрии «линейной трехмерной информетрии» (linear
2 Egghe L The duality of informetric systems with applications to the empirical laws // Journal of Information Science - 1990 - Vol 16, No 1 -P 17-27, EggheL Introduction to Infonnetncs Quantitative Methods in Library, Documentation and Information Science / L Egghe, R Rousseau - Amsterdam e a Elsevier Science, 1990 -P 292,313
three-dimensional mformetrics3) «Трехмерность» здесь подразумевает наличие в информетрическом процессе сразу трех узлов, которые назовем первичные источники, промежуточные продукты-источники и финальные продукты Например, первичными источниками могут быть авторы статей (или журналы, опубликовавшие эти статьи), промежуточными продуктами-источниками — собственно опубликованные статьи, финальными продуктами — цитирования, полученные данными статьями В настоящем исследовании в качестве источников фигурируют онлайновые журналы, в качестве финальных продуктов — загрузки читателями полнотекстовых статей из этих журналов
Первая глава «Электронные издания и процесс их использования» содержит обзор методов, применяемых в работе, и характеристик объектов настоящего исследования
В параграфе 1 1 изложены классификация, структура и особенности использования различных хранилищ электронных научных документов При этом особое внимание уделено онлайновым базам данных — источникам, размещенным во всемирной сети Интернет
Параграф 1 2 посвящен определению процесса обращения к электронным изданиям как объекта информетрического моделирования Рассмотрены различные типы информационного процесса производства и определено место среди них объекта настоящего исследования
В параграфе 1 3 изложены особенности инструментария, при помощи которого в работе собраны экспериментальные статистические данные, использованные далее в процессе информетрического моделирования Эта статистика получена из отчетов систем анализа обращений пользователей к онлайновым информационным ресурсам Важным свойством собранных таким образом данных являются их точность и, одновременно, низкая ресурсоемкость получения Это позволяет работать с точными данными, собранными за значительный период времени (в настоящей работе — за год)
Параграф 1 4 подробно описывает базы данных, включенные в настоящее исследование Это научные электронные ресурсы EBSCO, JSTOR, ProQuest и ScienceDiiect В общей сложности в них имелось на момент исследования около 13400 полнотекстовых периодических изданий, при этом за время сбора данных 2590 из них были хотя бы один раз востребованы пользователями (т е из них была открыта хотя бы одна публикация) Со ссылкой на аргументацию К JI Беррела4 вводится важный методологический принцип, которому далее следует вся работа в рассмотрение включаются только те журналы, к которым
3 Egghe L Power Laws in the Information Production Process Lotkaian Informetrics -Amsterdam e a Elsevier, 2005 -P 161-163
4 Burrell Q L The 80/20 Rule Library Lore or Statistical Law' // Journal of Documentation -1985 - Vol 41, No 1 -P 24-39, Burrell Q L The Gmi index and the Leimkuhler curve for bibli-ometnc processes//Information Processing and Management -1992 - Vol 28, No 1 -P 19-33
были обращения, остальные выносятся за рамки данного исследования и не учитываются ни в каких выкладках
Во второй главе «Моделирование процесса обращения к электронным информационным источникам при помощи информетрического закона Брэдфорда» рассмотрена модель Брэдфорда в двух ее формулировках — вербальной и графической.
Параграф 2 1 содержит теоретические основы информетрического моделирования при помощи закона Брэдфорда «Вербальный» вариант закона Брэдфорда формулируется так выделим множество журналов, в которых появляются статьи, посвященные некоторой выбранной научной тематике, и упорядочим их в порядке убывания количества этих статей, тогда это упорядоченное множество журналов можно разбить на три зоны так, чтобы в каждой было одинаковое количество статей по заданной теме При этом, как утверждает закон Брэдфорда, числа журналов в соответствующих зонах будут относиться друг к другу как 1 д д1, где 17 — некоторое число большее единицы (коэффициент Брэдфорда) Закон может быть органичным образом распространен на случай п зон (их называют зонами Брэдфорда)
На практике закон Брэдфорда, как и любая информетрическая модель, редко выполняется в совершенстве Поэтому можно выбирать различные значения для размера первой зоны Брэдфорда Бь числа зон п и коэффициента Брэдфорда ^ и получать более или менее хорошие разбиения на зоны Брэдфорда — в большей или меньшей степени удовлетворяющие закону Отсюда возникает задача определения таких параметров модели Брэдфорда, чтобы она максимально хорошо приближала исходные экспериментальные данные При этом необходимо, чтобы искомые параметры могли быть найдены из «макроскопических» характеристик набора данных, а именно из общего числа журналов 8, общего числа статей I, числа источников с минимальной продуктивностью л-, и числа статей, произведенных журналом с максимальной продуктивностью ;тах
Рассматривается два решения данной задачи Метод А И Яблонского5 дает систему решений
§
(при этом делаются предположения о подчинении распределения статей закону Ципфа - Мандельброта и о попадании в последнюю зону Брэдфорда только журналов с одной статьей)
Метод Л Эгге6 исходит только из выполнения закона Лотки, полагает свободу в выборе числа зон п и приводит к следующей оценке параметров модели Брэдфорда
5 Яблонский А И Модели и методы исследования науки - М Эдиториал УРСС, 2001 -С 349-354
д = (е\)У\ (1)
9 —1
где у — постоянная Эйлера - Маскерони
Л Эгге подробно описывает процесс построения зон Брэдфорда, однако рекомендует при определении размера первой зоны 8) из (1) округлять ее размер строго в меньшую сторону Автором настоящего диссертационного иссчедова-ния приводятся теоретические обоснования предпочтительности округления в
Рис 1 Библиограф- график зависимости кумулятивного числа статей i в 5 первых журналах от In J
Графическая формулировка закона Брэдфорда говорит о том, что построенная в полулогарифмических координатах кривая зависимости кумулятивного числа статей от кумулятивного числа журналов (журналы упорядочены по убыванию продуктивности) будет иметь вид, показанный на рис 1 Такую кривую называют библиографом
Библиограф будет вогнутым до некоторого значения s=S,, после которого перейдет в прямую При этом, согласно С Брэдфорду, именно S( соответствует границе первой зоны Брэдфорда В более поздних исследованиях было отмечено, что нередко на конце библиограф отклоняется вниз от прямой, образуя т н Groos Droop7
6 Egghe L Applications of the Theory of Bradford's Law to the Calculation of Leimkuhler's Law and to the Completion of Bibliographies // Journal of the American Society for Information Science -1990 - Vol 41, Iss 7 -P 469-492
7 Groos O V Bradford's law and Keenan-Atherton data// American Documentation - 1967 -Vol 18,No 1 -P 46
Далее со ссылками на соответствующую литературу показано, что закон Брэдфорда выполняется в различных дисциплинарных областях и на информационных процессах разнообразной природы на рассеянии статей по журналам, авторам и странам публикации, на распределении сделанных цитирований по журналам и полученных цитирований по авторам и по публикациям. Особое внимание уделено исследованиям применимости закона Брэдфорда к процессу использования информации, к чтению документов Приводится более десяти различных работ на данную тему, показывающих применимость модели Брэдфорда в различных ситуациях — при выдаче статей по межбиблиотечному обмену, при обработке информационных запросов специалистами справочной службы, при чтении реферативных изданий, при книговыдаче и в работе службы доставки документов
Ins
Рис 2 Библиограф, построенный по массиву экспериментальных данных
В параграфе 2 2 изложенные теоретические основания закона Брэдфорда применены к информетрическому моделированию на основе экспериментальных данных о статистике обращений читателей ГУ-ВШЭ к онлайн-периодике Сначала строится библиограф и проверяется графическая формулировка закона Выясняется, что библиограф имеет классический вид, с ярко выраженным Groos Droop (рис 2) Таким образом, можно констатировать, что графический вариант закона Брэдфорда выполняется
Установлено, что вербальная формулировка в ее простейшем варианте разбиения на три зоны не выполняется отношения чисел журналов в последовательных зонах Брэдфорда меняется более чем в три раза (таблица 1)
Далее исследуется более развитый метод деления множества журналов на л зон Брэдфорда, предложенный JI. Эгге и проанализированный в параграфе 2 1 Тестируется различное число п, от 3 до 12 (последнее является вычисленным ограничением сверху числа зон п в методе JI Эгге для данного случая) При этом используется описанная выше корректировка метода Эгге в части округления величины первой зоны Выясняется, что на всех зонах сразу вербальная формулировка выполняется плохо при фиксированном q максимальное различие между числами статей в разных зонах колеблется от 1,9 до 4,7 раз Однако в средних зонах имеются участки, на которых число статей в зонах почти не меняется Так, при разбиении на 12 зон (таблица 2) три зоны VI-VIII содержат практически одинаковое число статей отклонение составляет менее 7%
Таблица 1 Разбиение на три зоны Брэдфорда методом простого деления множества статей на (примерно) равные части (д — коэффицент Брэдфорда, _отношение числа журналов в п-й зоне к числу в и-1-й)_
зона Брэдфорда число журналов в зоне процент журналов Ч число статей, открытых из каждого журнала число статей в зоне
I 26 1,0% - 1306-275 13987
11 139 5,4% 5,35 272-43 13975
III 2425 93,6% 17.45 42-1 13997
всего 2590 100% - - 41959
Сделан вывод о том, что закон Брэдфорда выполняется на тех зонах, где библиограф имеет практически прямолинейную форму Ввиду того что характерной особенностью библиографа, построенного по исследуемым экспериментальным данным, является сильный Groos Droop в области высоких рангов (в правой части библиографа), прямолинейный участок не является ярко выраженным, что объясняет плохое выполнение вербальной формулировки закона Брэдфорда
Согласно литературе5, сильный Groos Droop может являться следствием политематичности исследуемой области или недостаточно полного охвата всех журналов заданной тематики при построении библиографа. В нашем случае могут иметь место оба эффекта, если их перенести на процесс использования литературы исследуемое множество онлайновых источников не исчерпывает всех информационных потребностей читателей вуза (отсюда «неполнота» учтенной библиографии), а включенные в анализ онлайновые библиотеки существенно полите,матичны, равно как и интересы читателей ГУ-ВШЭ Именно сочетанием
8 Egghe L Reflections on a deflection A note on different causes of the Groos droop / L Egghe, R Rousseau//Scientometrics - 1988 - Vol 14, No 5-6 - P 493-511, Brookes B C Bradford's law and the bibliography of science//Nature -1969 - Vol 224 -P 953-956
этих причин может объясняться особенно сильная деформация библиографа в области малоспрашиваемых изданий Отсюда же, по предлагаемой интерпретации, следует недостаточно удовлетворительное выполнение вербальной формулировки закона Брэдфорда
В параграфе 2 3 информетрическая модель Брэдфорда применена к выделению «ядра» периодических изданий — наиболее важных и спрашиваемых журналов, представляющих ключевой интерес для читательской аудитории вуза Согласно Брэдфорду и его последователям, ядром считается либо первая зона в вербальной формулировке модели, либо точка перехода библиографа в прямую в ее графическом варианте Так как в данном исследовании установлено, что лучше выполняется графическая формулировка, то именно по ней определяется ядро читательского спроса
Таблица 2 Разбиение на зоны Брэдфорда скорректированным методом Эгге, п=12
зона число число зона число Я число
Брэдфорда журн-в Я статей Брэдфорда журн-в статей
I 1 - 1306 VII 49 1,88 5055
II 2 2,00 2105 VIII 93 1,90 4723
III 4 2,00 3058 IX 176 1,89 4292
IV 7 1,75 3580 X 339 1,93 3874
V 13 1,86 4210 XI 646 1,91 2951
VI 26 2,00 5075 XII 1234 1,91 1730
В отсутствие общепринятого способа определения точки перехода библиографа от вогнутой части к прямой, автором настоящего исследования предложены два подхода к решению данной задачи Один использует приближение кривой полиномом третьей степени и поиск точки перегиба, второй — обращение к разбиению на зоны Брэдфорда методом Эгге и определение нижней границы тех зон, где удовлетворительно выполнятся вербальная формулировка закона Брэдфорда (следовательно, участка, на котором библиограф имеет квазипрямолинейный вид) Первый метод является оценкой размера ядра сверху и дает как результат 77 журналов, второй, по всей видимости, более точен и выделяет 28 ядерных изданий Наконец, найденное ядро анализируется по различным базам данных — это позволяет установить роль каждого ресурса в ядре электронной коллекции
Глава 3 «Моделирование процесса обращения к электронным информационным источникам при иомощи ннформетрического принципа Паре-
то» рассматривает закон (принцип, правило) Парето и, в его контексте, понятия о кривой Леймкулера - Лоренца и индексе Джини
В параграфе 3 1 сформулирован эмпирический принцип Парето 80/20, который в общем виде звучит как «20% причин отвечают за 80% следствий» Проведен обзор библиографии но закону Парето в применении к процессу использования информации Отмечено, что из всех информетрических закономерностей, охваченных настоящей диссертационной работой, принцип Парето — единственный закон, о приложении которого к использованию электронных документов автору известно из существующих научных публикаций.
Параграф 3 2 посвящен определению понятий кривой Лоренца (Леймкулера - Лоренца), которая отражает зависимость кумулятивной доли статей, приходящихся на кумулятивную долю журналов, и одной из мер концентрации распределений, индекса Джини С Последний в явном виде связан с площадью под кривой Лоренца, изменяется от 0 до 1 и указывает на максимальную неравномерность распределения при С =1 и абсолютно равномерное распределение при й =0 Получена формула для оценки С численными методами, при помощи приближения кривой Лоренца грапециями и вычисления площади под ней
Кроме того, в этом параграфе изложен оригинальный метод определения ядра журналов (для распределения статей по журналам) при помощи индекса Джини, предложенный современными исследователями9 В нем последовательно обнуляются числа статей для N-s наименее продуктивных изданий и ненулевые значения остаются Лишь для .у наиболее продуктивных журналов При этом индекс Джини возрастает с уменьшением $ (т е при уменьшении количества журналов с ненулевым числом относящихся к ним статей) Для определения границы ядра предложено использовать величину
названную авторами упомянутого метода «коэффициентом принадлежности к ядру», которая убывает с ростом .г, изменяясь от 1 до 0 Авторы рассматриваемого метода предлагают выбирать некоторый уровень (в 90 или 95 процентов) и считать ядром те журналы, для которых т„ превышает соответственно 0,9 или 0,95 (в результате получается «90%-ядро» и «95%-ядро») Сильная сторона такого подхода заключается в том, что он учитывает реальную степень отличия журналов, входящих в ядро, от остальных изданий, а также их роль в неравномерности всего распределения
9 Egghe L A proposal to define a core of a scientific subject A definition using concentration and fuzzy sets / L Egghe, R Rousseau// Scientometncs - 2002 - Vol 54, No 1 - P 51-62, Burrell Q L Defining a core Theoretical observations on the Egghe-Rousseau proposal // Scientometncs -2003 - Vol 57, No 1 -P 75-92
В параграфе 3 3 правило Парето проверено на экспериментальных данных о спросе на онлайновую периодику в ГУ-ВШЭ Сначала кривые Леймкулера -Лоренца построены для четырех электронных ресурсов по отдельности Оказалось, что правило Парето выполняется с разной степенью успешности от 80/18 (80% обращений приходится на 18% наименований периодики) для JSTOR до 80/31 для ProQuest (таблица 3) Затем построена кривая для всех четырех ресурсов, рассмотренных как единый информационный массив Выяснилось, что в этом случае принцип Парето имеет даже более сильную форму 80% обращений пользователей относится к 14,7% журналов, или 83% — к 17% (пропорция в классическом виде 83/17)
Таблица 3 Выполнение правила Парето и величина индекса Джини
для четырех ресурсов и суммарной электронной подписки
Ресурс пропорция Парето индекс Джини
EBSCO 80/28 0,695
ProQuest 80/31 0,649
JSTOR 80/18 0,780
ScienceDirect 80/25 0,709
все ресурсы 80/14,7 0,804
Индексы Джини для четырех отдельных ресурсов и общего массива найдены численными методами, изложенными в параграфе 3 2 Самая большая концентрация наблюдается для всех ресурсов как целого (С?=0,80 — «сводная» кривая Леймкулера покрывает площадь 0,9, т е 90% от возможного), самая слабая — для базы данных РгоС>1^ (С=0,б5) Кроме того, выяснено, что имеет место прямая зависимость- чем бочьше индекс Джини, тем «строже» исполняется закон Парето Это не является необходимым условием и означает, что в данном случае чем раньше кривая Леймкулера для ресурса (или их общей совокупности) пересечет ординату в 80%, тем большая площадь под ней находится на всем ее протяжении
В параграфе 3 4 метод определения ядра журналов при помощи индекса Джини, изложенный в параграфе 3 2, использован для рассмотрения усеченной выборки с обнуленными значениями для ряда малопродуктивных изданий Как и раньше, в данном методе публикация статей в журналах заменяется на их открытие пользователями — в этом состоит методика адаптации данного метода от процесса производства к процессу обращения к информации Для суммарной подписки выяснено, что 90%-ядро состоит из 89 журналов (3,4% от общего числа), 95%-ядро — из 37 (1,4%) Можно констатировать, что по порядку полученной величины оба способа — по Брэдфорду и по Джини — Парето — дают одинаковый размер ядра Получение схожих результатов концептуально разными методами информетрического моделирования позволяет с оптимизмом смотреть
на вопрос выделения ядра наиболее спрашиваемых изданий для процесса использования электронных ресурсов, указывая на то, что наличие такого ядра подразумевается самим процессом, а не зависит критическим образом от ин-форметрической модели
Глава 4 «Моделирование процесса обращения к электронным информационным источникам при помощи других информетрических законов» охватывает еще три информетрических закона, при помощи которых осуществляется моделирование процессов обращения к электронным онлайновым ресурсам
Параграф 4 1 посвящен применению модели, базирующейся на законе Леймкулера, который задает вид одноименной кривой выражением
1п(1 + Рх) У" 1п(1 + Р) '
где л — доля наиболее продуктивных журналов, у •— доля статей, содержащихся в этих журналах, а Р > О — эмпирический коэффициент, который необходимо найти при информетрическом моделировании
Подбор коэффициента р проводится при помощи нелинейной регрессии и метода наименьших квадратоз Получено очень хорошее приближение экспериментальных данных регрессионной кривой (коэффициент детерминации равен 0,937), что доказывает применимость модели Леймкулера При этом Р=5850
Для дополнительной проверки модели, с ее помощью в аналитическом виде найдена площадь под кривой Леймкулера и оценен индекс Джини, который получился равным 0,77 Это вновь хорошо согласуется со значением 6=0,80, полученным ранее в параграфе 3 3 численными методами
В параграфе 4 2 рассмотрено применение информетрической модели Лотки к процессу обращения к электронным документам Закон Лотки заключается в том, что если берется некоторое множество ученых и изучается, сколько статей написал каждый из них, то число ученых, написавших ровно I публикаций, будет обратно пропорционально некоторой степени /
5, = АГа
Показатель степени а при этом обычно близок к двум
Методика переноса данного закона на ситуацию исследования спроса на онлайн-периодику находится в русле общего подхода настоящей диссертационной работы заменим число авторов числом журналов, а число написанных авторами публикаций — числом открытых из данных журналов статей
Для определения коэффициента распределения Лотки а построена зависимость числа журналов я,, из которых открыто ровно I статей, от г (рис 3) График показан в двойных логарифмических координатах, что позволяет по наклону регрессионной прямой определить а Здесь, однако, имеется серьезная проблема, которая вообще свойственна закону Лотки если / велико, то лишь для редких 1 я, * 0 Более того, журналов, из которых открыто фиксированное, при-
чем большое, число статей, всегда будет немного, 1-2, и поэтому на графике соответствующие им точки вытягиваются по ординатам 1п 1=0 и 1п 2 При этом таких точек много, более 100, в связи с чем они оказывают существенное влияние на построенную регрессионную прямую В итоге регрессионное приближение получается не очень удачным (11-квадрат равен 0,74), а а «0,96, что крайне мало для закона Лотки
ln-У,
0
M0- 0 \ 0°
•Ш- \Vo dPo
2 011- COOS& G£> ИЯХШЮ
0 00- о «жкхиятш МЕЮ
ОЛО 200 400 ем
Inj
Рис 3 Приближение экспериментальных данных законом Лотки
Автором диссертации предложено два различных способа коррекции данных, чтобы уйти от упомянутых проблем модели В первом подобно тому, как поступал С Наранан10, из набора данных убираются точки такой продуктивности, что источников, ей соответствующих, только 1 или 2 Тогда остается 51 точка из 155, регрессионная кривая дает а »1,37, а коэффициент детерминации резко вырастает до 0,96 Второй способ состоит в том, что дискретные значения для журналов с большим чистом открытых статей заменяются на аналог непрерывного распределения с соответствующей плотностью Если имеются s^Ohs, *0, />у, причем У к, j<k<i, выполняется sk = 0 (т е источников с продуктивностью больше j и меньше i нет), то на графике точки с координатами
(?, 5,) переносятся в точки | + 0,5,
10 Naranan S Power Law Relations in Science Bibliography - A Self-consistent Interpretation//Journal of Documentation -1971 - Vol 27, No 2 -P 83-97
¡п Л",
1а ^
Рис 4 Приближение скорректированных экспериментальных данных законом Лотки
Этот метод, в отличие от предыдущего, учитывает, например, что в области средней продуктивности источники с некоторым заданным 1 встречаются чаще, чем в зоне максимальной продуктивности (меньше значений / с л, =0), — эффект, полностью игнорируемый при простом исключении ряда источников с высокой продуктивностью Для нового скорректированного распределения регрессия показана на рис 4, а оценка а »1,69 уже близка к классической (Я-квадрат равен 0,92) Можно говорить, что после необходимой корректировки данных в области точек с высокой продуктивностью модель Лотки хорошо описывает исследуемый нами процесс обращения к электронным информационным ресурсам Наконец, в параграфе 4 3 к процессу использования электронной информации применена информетрическая модель Ципфа
Открытый в лингвистике закон Ципфа утверждает, что частота встречаемости слова / обратно пропорциональна некоторой степени ранга г этого слова (места в рейтинге слов, упорядоченных по частоте встречаемости), причем показатель степени близок к единице Вновь вместо частоты встречаемости слова рассмотрим число открытых статей из журнала, а ранг слова заменим рангом журнала — номером в списке журналов, выстроенных в порядке убывания числа открытых из них статей
1п/
1пг
Рис 5 Приближение скорректированных экспериментальных данных законом Ципфа
В двойных логарифмических координатах построена зависимость УС), Для данного случая — зависимость числа открытых статей от ранга журнала В результате получен показатель степени 1,35 Однако, в отличие от закона Лотки, который с трудом применим без корректировки данных к журналам с большой продуктивностью, закон Ципфа имеет недостатки в области источников с малой продуктивностью число журналов с одной или двумя открытыми статьями велико и все они, по логике, должны иметь один ранг Для отражения этого факта проведем логичную замену источники, имеющие одинаковую продуктивность, отразим одной точкой с соответствующей продуктивностью и рангом, равным среднему рангу всех точек Построим новый график Да-) в двойных логарифмических координатах (рис. 5)
Наклон регрессионной прямой дал показатель степени в зависимости .Дг) 0,97, те/обратно пропорционально г0 97 Это практически точное совпадение с классическим видом закона Ципфа При этом Я-квадрат рецэессии равен 0,96 Таким образом, для наших экспериментальных данных информетрическая модель Ципфа применима в ее классическом варианте.
Заключение диссертационной работы подводит итоги информетрического моделирования процесса обращения к электронным информационным ресурсам при помощи различных законов, содержит выводы о пригодности большинства из них к такого рода исследованиям и указывает перспективы дальнейшего применения информетрии к моделированию процессов использования научной информации
СПИСОК ОПУБЛИКОВАННЫХ РАБОТ
Глава в монографии:
1 Писляков В В Использование онлайновых ресурсов и управление электронной подпиской в библиотеке ГУ-ВИ1Э // Университетские инновации опыт Высшей школы экономики / Я И Кузьминов, В В Радаев, А А Яковлев и др , под ред Я И Кузьминова -М ГУ-ВШЭ, 2006 - С 160-178
Статьи в журналах:
2 Писляков В. В. Моделирование процесса обращения к электронным информационным источникам на основе информетрического закона Брэдфорда // Ученые записки Казанского государственного университета Серия Физико-математические науки -2007 -Т 149, кн 2 - С 116-127
3 Писляков В. В. Спрос на электронные журналы в университетской библиотеке работает ли правило Парею9 // Научно-техническая информация Сер 1 -2005 -№12 - С 27-32
4 Зибарева И В. Библиометрический анализ журнала «Успехи химии» / И В Зибарева, В В Писляков, Т Н Теплова, О М Нефедов // Вестник Российской академии наук -2008 -Т 78, №6 - С 490-499
5 Писляков В. В. Использование онлайновых ресурсов и управление электронной подпиской в библиотеке ГУ-ВШЭ // Университетское управление практика и анализ - 2006 - № 4 (44) - С 47-56
Материалы конференций •
6 Писляков В. В. Правило Парето и статистика использования электронных журналов в университетской библиотеке // Библиотеки и информационные ресурсы в современном мире науки культуры, образования и бизнеса Труды Одиннадцатой международной конференции «Крым-2004» -http //www gpntb ru/win/mter-events/crimea2004/disk/doc/276 pdf
7 Писляков В. В. Системы сбора и анализа статистики использования электронных ресурсов сравнительный обзор // Библиотеки и информационные ресурсы в современном мире науки, культуры, образования и бизнеса Труды Двенадцатой международной конференции «Крым-2005» -http //www gpntb iu/win/inter-events/crimea2005/disk/51 pdf
Отпечатано с готового оригинал-макета в типографии Издательства Казанского государственного университета Тираж 100 экз Заказ 65/9
420008, ул Профессора Нужина, 1/37 тел 231-53-59,292-65-60
Оглавление автор диссертации — кандидата физико-математических наук Писляков, Владимир Владимирович
Введение.
Глава 1. Электронные издания и процесс их использования.
1.1. Базы данных научных информационных источников: структура и классификация.
1.2. Процесс использования электронных изданий как объект информетрического моделирования.
1.3. Системы сбора и обработки статистики использования электронных изданий.
1.4. Методы и набор статистических данных, используемые в моделировании при помощи информетрических законов.
Глава 2. Моделирование процесса обращения к электронным информационным источникам при помощи информетрического закона Брэдфорда.
2.1. Формулировка закона Брэдфорда.
2.1.1. Вербальная формулировка закона Брэдфорда.
2.1.2. Графическая формулировка закона Брэдфорда.
2.1.3. Охват законом Брэдфорда различных информационных процессов.
2.2. Закон Брэдфорда как модель процесса обращения к электронным информационным источникам.
2.3. «Ядро» изданий и закон Брэдфорда.
2.1.1. Методы выделения ядра изданий при помощи закона Брэдфорда.
2.1.2. Ядро изданий при моделировании процесса обращения к электронным информационным источникам с применением закона
Брэдфорда.
Глава 3. Моделирование процесса обращения к электронным информационным источникам при помощи информетрического принципа Парето.
3.1. Формулировка принципа Парето и примеры его действия.
3.2. Кривая Лоренца, индекс Джини и выделение ядра журналов с использованием принципа Парето.
3.3. Принцип Парето как модель процесса обращения к электронным информационным источникам.
3.4. Ядро изданий при моделировании процесса обращения к электронным информационным источникам с применением принципа Парето и индекса Джини.
Глава 4. Моделирование процесса обращения к электронным информационным источникам при помощи других информетрических законов.
4.1. Закон Леймкулера.
4.2. Закон Лотки.
4.3. Закон Ципфа.
Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Писляков, Владимир Владимирович
Статистический анализ научной и образовательной деятельности получает всё большее распространение как в мировой, так и в отечественной практике [99; 105; 2; 5; 6; 4; 110]. Одним из наиболее важных направлений такого анализа является выявление и изучение статистических закономерностей производства, поиска и использования информации — направление, выделенное в отдельную молодую отрасль, информетрию (см., в частности, [66; I])1.
Широко распространенным методом изучения информационных потоков является информетрическое моделирование ■— математическое моделирование информационных процессов с использованием информетри-ческих законов. Такое моделирование заключается в выявлении эмпирических закономерностей, наблюдаемых в значительном числе информационных процессов, облечении их в строгую математическую форму и распространении данных моделей на остальные процессы, однотипные исследованным. Одним из упрощенных примеров использования готовой модели, основанной на информетрическом законе Лотки, служит оценка суммарного количества / статей, написанных группой из S произвольно выбранных пишущих авторов (т. е. ученых, опубликовавших хотя бы одну статью):
1 К информетрии плотно прилегают еще две области знания — библиометрия и наукометрия. Разграничение их «полномочий» зависит от конкретных определений этих наук, которые подчас отличаются у разных авторов. Мы придерживаемся представления, что библиометрия занимается только опубликованной информацией, документами, являясь, таким образом, подмножеством информетрии. Наукометрия значительным образом пересекается с информетрией, хотя есть и несовпадающие области: например, вопросы использования ненаучной информации или вопросы чистого спроса на информацию, без ее воспроизводства, не являются предметом собственно наукометрического исследования, в то же время аспекты занятости населения в науке или потоков средств, вкладываемых в R&D, находятся вне рамок информетрии.
0,3 5(0,7+ 1п5). л ,=i /
Подробнее закон Лотки исследован в параграфе 4.2, а пока заметим, что использование информетрического моделирования дает нам в данном случае возможность без сбора подробных сведений о публикациях каждого ученого, без вникания в особенности научной дисциплины, в которой работает эта группа, исходя только из ее размера, оценить по порядку величины ее суммарную продуктивность.
Отличительное свойство применения математических моделей к социальным процессам (которыми являются процессы производства и использования научной информации) — возможность не интересоваться глубинными причинами наблюдаемых закономерностей и приводящими к ним явлениями, происходящими на микроуровне. Несмотря на то что были предложены объяснения возникновения ряда информетрических законов («успех рождает успех», «принцип наименьших усилий», «принцип максимума энтропии»), собственно информетрическое моделирование строится без оглядки на микроуровень, с использованием закономерностей, обнаруженных в эмпирике, как данного.
Одна из основных задач информетрического моделирования, проводимого на конкретном информационном процессе, — это определение, насколько применим к рассматриваемому процессу, насколько корректно и насколько точно выполняется тот или иной информетрический закон, каковы особенности его применения в данном случае и каковы основные коэффициенты, получаемые в процессе приближения экспериментальных данных используемой моделью. Обобщение подобного рода исследований на целом ряде однотипных информационных процессов позволяет говорить о той или иной степени применимости изучаемых законов к произвольному аналогичному процессу.
Типичная сложность, с которой сталкивается ученый в процессе ин-форметрического моделирования, — это переход от одних условий, в которых тестируется модель, к качественно или количественно другим. Это может быть вызвано изменением масштаба исследования (пример: переход от изучения рассеяния по журналам статей, написанных исследовательской лабораторией, к рассеянию публикаций целой страны), сменой дисциплинарной области, в которой происходит информационный процесс (анализ цитирований статей по математике или по биологии), или заменой самого процесса на аналогичный (переход от изучения статистики чтения какого-либо журнала к статистике его цитирования). Последний случай нам наиболее интересен.
С одной стороны, любой из процессов, подлежащих информетриче-скому моделированию, сходен с другим, являясь собственно «информационным процессом», или точнее, в терминологии JI. Эгге, «информационным процессом производства» (Information Production Process, IPP [59; 66, pp. 292, 313; 63, p. 101-102]). В нем можно выделить пары «источники — продукты». Например, при написании статей «источником» являет9я автор, «продуктом» — публикация; при изучении рассеяния статей по журналам «источник» — это журнал, а «продукт» — вновь статья; в ходе анализа цитируемости продуктом будет цитирование, а источником — цитировавший или цитируемый автор, статья или журнал и т. д.
С другой стороны, нельзя априорно, без специальных исследований утверждать применимость информетрического закона для всех типов «информационных процессов производства» на основании его подтверждения для одного из таких процессов. Эти вопросы составляют основную проблематику настоящей диссертационной работы. Все законы информетрии, с использованием которых мы будем проводить информетрическое моделирование, исходно были открыты на информационных процессах иной природы, чем те, применимость к которым мы исследуем. Мы моделируем обращение читателей к информационным источникам, т. е. процесс использования информации, в то время как законы Брэдфорда и Леймкулера были открыты для рассеяния статей по журналам, закон Лотки — для распределения статей по авторам, закон Ципфа сформулирован в лингвистических исследованиях частоты употребления слов, а правило Парето — вообще при изучении распределения доходов среди населения.
Итак, фокусировка нашего исследования на том, насколько корректно и гладко можно совершить перенос информетрического моделирования от «исходных» информационных процессов, давших рождение изучаемым моделям, к процессу обращения к документам, информационным ресурсам. Отметим, что сам процесс использования информации иногда выделяется из остальных «информационных процессов производства», так как существенным образом является вторичным информационным процессом: прежде чем информацию использовать, ее необходимо создать. Это позволяет Л. Эгге относить спрос на информационные источники даже к особому виду информетрии: «линейной трехмерной информетрии» (linear three-dimensional informetrics [63, p. 161-163]) или «type/token-taken informetrics» [61; 43; 63, p. 168-172] (в лингвистике пара «type/token» [84] идентична nape «источники — продукты» в информетрии, а прибавка «taken» указывает на изучение востребованности, «взятия» информации). «Трехмерность» здесь подразумевает наличие в информетрическом процессе сразу трех узлов, которые назовем: первичные источники, промежуточные продукты-источники и финальные продукты. Например, первичными источниками могут быть авторы статей (или журналы, опубликовавшие эти статьи); промежуточными продуктами-источниками — собственно опубликованные статьи; финальными продуктами — цитирования, полученные данными статьями2.
В нашем моделировании обращения к электронным информационным ресурсам в качестве источников будут фигурировать журналы, в качестве финальных продуктов — загрузки читателями полнотекстовых статей из этих журналов. Мы опускаем промежуточное звено «продуктов-источников» — собственно статьи, публикуемые журналами. Для простоты так регулярно делается в информетрических исследованиях. Например, при изучении числа публикаций различных стран опускается промежуточное звено — ученые этих стран, которые создавали данные публикации; при изучении цитируемости целых журналов нередко не интересуются отдельными статьями, которые и собирают цитируемость издания. В настоящей работе нам не понадобится промежуточный уровень, но, тем не менее, надо отдавать себе отчет, что мы моделируем информационный процесс более сложный, «составной», в отличие от простых процессов, на которых открывались используемые законы. Это, безусловно, добавляет важности вопросу об успешности планируемого перенесения информетрических моделей на исследуемый нами процесс.
Несмотря на изложенные соображения, рассматриваемые в настоящей работе информетрические законы уже неоднократно применялись к интересующему нас процессу — процессу использования информации. Подобных экспериментов проводилось достаточно много для законов Брэдфорда и Парето, где остро стоит вопрос о выделении «ядра» наиболее спрашиваемой и необходимой литературы, меньше -— для законов Леймкулера,
Вообще говоря процесс цитирования во многом близок к процессу обращения к информационным источникам: и в том и другом случае можно говорить об «использовании» информации — или для написания собственной работы или для простого ознакомления с публикацией. Изучению информетрического процесса цитирования и инструментов для его исследования посвящен ряд работ автора настоящей диссертационной работы [11; 12; 13; 15; 14; 109].
Лотки и Ципфа. Нередко такие опыты были достаточно успешными (обзоры библиографии приведены в соответствующих параграфах).
Отличительной чертой нашего исследования является попытка переноса целого комплекса информетрических моделей из традиционной «печатной» среды в среду электронную. Мы ограничиваемся чтением, обращением к электронным источникам, а именно базам данных периодики с онлайновым доступом, размещенным в сети Интернет (электронные информационные ресурсы JSTOR, ЕВ SCO, ProQuest, ScienceDirect). Таким образом, «перенос» классических информетрических законов осуществляется нами одновременно в двух плоскостях: с тех информационных процессов, где они были исходно сформулированы, на процесс использования информации (при этом мы также переходим от «двумерной» информетрии к «трехмерной») и из печатного окружения — в электронное.
Актуальность проблемы заключается, прежде всего, в том, что исследование соединяет, во-первых, набирающие силу и авторитет в исследованиях науки и образования информетрические и библиометрические методы, во-вторых — завоевывающие всё большую популярность и получающие всё более широкое распространение в наше время электронные информационные ресурсы. Таким образом, в настоящей диссертационной работе объединяются актуальные методы исследования и современный объект, к которым эти методы применяются. В ней также затрагиваются такие насущные вопросы, как трактовка статистических показателей чтения онлайновых ресурсов в вузе, выделение наиболее важных, «ядерных» изданий из многотысячной их совокупности, построение наиболее оптимального фонда электронных документов при минимизации затрат.
Цели и задачи исследования
Целью исследования является применение информетрического моделирования к процессу обращения к электронным информационным ресурсам.
Задачами исследования являются: информетрическое моделирование при помощи законов Брэдфорда, Парето, Леймкулера, Лотки, Ципфа на основе экспериментальных данных об обращении к электронным информационным ресурсам, полученных в Государственном университете - Высшей школе экономики; получение и обсуждение основных коэффициентов, найденных в процессе приближения модели к экспериментальным данным; анализ применимости информетрических законов для моделирования спроса на электронные документы и исследование особенностей, характерных для такого рода спроса с точки зрения инфор-метрии; выделение при помощи законов Брэдфорда, Парето и индекса Джини «ядра», т. е. наиболее спрашиваемых научных журналов в электронной подписке вуза.
Методы исследования
В диссертационной работе используются статистические методы, методы математического моделирования, методы интегрального и дифференциального исчисления, методы мониторинга обращений к онлайновым базам данных.
Современные средства анализа процесса обращения к документальным онлайновым базам данных позволяют с высокой степенью достоверности получить статистические показатели чтения пользователями электронных изданий, для того чтобы в дальнейшем применять их в процессе моделирования.
В качестве таких данных в настоящей работе выступает статистика использования электронных онлайновых источников в Государственном Университете - Высшей школе экономики. Сбор и анализ этой статистики производился на протяжении всего 2004 г. (январь-декабрь). Таким образом, имеется «живой» экспериментальный набор данных информетриче-ского процесса. Обладая достаточным объемом для репрезентативности (всего зафиксировано 41959 обращений к статьям из 2590 различных изданий, размещенных в базах данных), этот набор может служить базой для информетрического моделирования.
Далее для каждого информетрического закона осуществляется приближение его коэффициентов для наилучшего совпадения с экспериментальными данными. Регрессионный анализ при определении оптимальных коэффициентов информетрической модели проводился при помощи статистического пакета SPSS версии 12.0 и 14.0. Степень совпадения модели и экспериментальных данных и, таким образом, степень применимости моделирования при помощи того или иного информетрического закона оценивается, там где это возможно, при помощи коэффициента детерминации (R-квадрат).
Научная новизна настоящего исследования содержит несколько аспектов. Прежде всего, в случае большинства информетрических законов (Брэдфорда, Леймкулера, Лотки, Ципфа) нам неизвестны труды предшественников, которые изучали бы применимость этих законов для моделирования процесса использования информации в электронной, онлайновой среде. Кроме того, столь объемный экспериментальный массив (41959 обращений к статьям из 2590 различных изданий) практически невозможно получить в «традиционном» печатном окружении, а потому вообще существует крайне мало исследований, которые осуществляли бы информетри-ческое моделирование на таком солидном материале. Наконец, использование для эксперимента онлайновых библиотек и систем учета статистики обращений к последним является более точным и достоверным.
К научной новизне данной диссертационной работы также относится введение в отечественный научный оборот ряда современных зарубежных источников по информетрии, которые прежде либо цитировались крайне редко, либо не рассматривались в российских исследованиях вообще.
Достоверность результатов работы в значительной степени определяется достоверностью исходного экспериментального массива, собранного методом анализа лог-файлов системами учета использования электронных ресурсов. Этот метод свободен от многих технических и методологических погрешностей других способов оценки обращений к периодическим изданиям (опросы, статистика возвратов журналов на полки, статистика выдач периодики на абонемент), а потому дает авторитетную экспериментальную базу для исследования. Кроме того, достоверность полученных результатов обеспечивают точные математические методы, применяемые в исследовании, а также профессиональные программные пакеты обработки и анализа статистической информации, использованные нами при инфор-метрическом моделировании.
Практическая значимость диссертационного исследования заключается в возможности применить его методику и основные выводы к созданию и регулированию оптимального фонда онлайновой периодики учебной или научной организации, выделению информационного «ядра» и тех источников, которые являются ключевыми для обеспечения научной и образовательной деятельности.
Апробация результатов проводилась на ряде международных конференций: «SCIENCE ONLINE: электронные информационные ресурсы для науки и образования» (на II, IV, V, X конференциях в 2003, 2004, 2005 и 2007 гг.); «Международная конференция Крым: Библиотеки и информационные ресурсы в современном мире науки, культуры, образования и бизнеса» (на XI и XII конференциях в 2004 и 2005 гг.). Также результаты излагались на семинаре Отделения математического моделирования НИИ математики и механики им. Н. Г. Чеботарева Казанского государственного университета (2007 и 2008 гг., руководитель проф. А. М. Елизаров) и на семинаре «Математические методы анализа решений в экономике, бизнесе, политике» (2007 г., ГУ-ВШЭ, руководители семинара проф. Ф. Т. Алескеров и проф. В. В. Подиновский).
Публикации: результаты исследования опубликованы в 5 работах, в том числе в четырех статьях [3; 8; 9; 13] в журналах из Перечня, рекомендованного ВАК для публикации результатов диссертационных работ (одна из публикаций в соавторстве). Одна из этих статей [9] также была перепечатана в виде главы в коллективной монографии [10].
Структура и объем диссертации
Работа состоит из введения, четырех глав, заключения, списка литературы и трех приложений.
Содержание работы
Во введении производится постановка проблемы, определяется понятие информетрического моделирования и излагается краткая история вопроса.
Первая глава содержит обзор методов, применяемых в работе, и характеристик объектов настоящего исследования. Приведены описания и информетрические параметры электронных баз данных, включенных в исследование; изложено представление о процессе обращения к электронным изданиям с точки зрения информетрического моделирования; описаны инструментарий и процесс получения статистики использования электронных информационных ресурсов; дана характеристика полученного статистического массива и указаны операции, подготавливающие его к использованию в качестве опорных экспериментальных данных при информетриче-ском моделировании.
Вторая глава посвящена моделированию процесса обращения к электронным информационным ресурсам при помощи закона Брэдфорда и состоит из трех параграфов. В параграфе 2.1 дается определение информет-рического закона Брэдфорда в двух формах («вербальной», т. е. математической, и графической), излагаются основные методы определения оптимальных коэффициентов в модели Брэдфорда, а также приводится обзор литературы с фокусом на применении закона Брэдфорда к различным процессам использования информации. Далее в параграфе 2.2 при помощи закона Брэдфорда строится модель обращения к электронным источникам — реальные данные разбиваются на «зоны Брэдфорда» согласно математической формулировке закона, проводится подбор эмпирических коэффициентов закона различными методами, а также строится кривая Брэдфорда («библиограф»). Устанавливается, что закон Брэдфорда не выполняется в своей классической «вербальной» формулировке, однако график обращения к источникам хорошо соответствует предсказанному виду кривой Брэдфорда. В параграфе 2.3 излагаются подходы к выделению «информационного ядра» (наиболее спрашиваемых информационных источников) на основе применения модели Брэдфорда. Далее из имеющегося экспериментального массива выделяется ядро, двумя методами — кубической аппроксимацией кривой Брэдфорда с нахождением точки перегиба и привлечением математической формулировки закона для определения границы квазипрямолинейного участка библиографа.
Глава 3 касается информетрического моделирования с использованием закона (принципа, правила) Парето и состоит из четырех параграфов. В параграфе 3.1 дается представление о принципе Парето и приводится ряд его проявлений в различных областях знания, с обзором соответствующей литературы. Параграф 3.2 содержит определение кривой Лоренца и индекса Джини, а также изложение одной из современных методик поиска ядра информационного спроса путем наблюдения за изменением индекса Джини в усеченной выборке журналов. Далее в параграфе 3.3 реальные данные по обращению к электронным информационным ресурсам проверяются на соответствие эмпирическому принципу Парето. Выясняется, что принцип Парето выполняется даже в более сильной форме, чем его классическое определение. Обсуждается различие между соответствием модели Парето экспериментальным данным для отдельных составляющих информационного массива (отдельных баз данных) и для всего массива в совокупности. Строится кривая Лоренца, численными методами определяется площадь под кривой и вычисляется индекс Джини. Делается вывод о высокой концентрации распределения количества обращений по информационным источникам, после чего в параграфе 3.4 определяется ядро изданий из электронных коллекций ГУ-ВШЭ при помощи закона Парето и индекса Джини. Это ядро сопоставляется с результатом, полученным в параграфе 2.3 с использованием закона Брэдфорда.
Глава 4 охватывает еще три информетрических закона, при помощи которых осуществляется моделирование процессов обращения к электронным информационным ресурсам. Это законы Леймкулера (параграф 4.1; здесь площадь под прямой Леймкулера - Лоренца вычисляется в аналитическом виде и сравнивается со значением, полученным в параграфе 3.3 численными методами), Лотки (параграф 4.2) и Ципфа (параграф 4.3). Делается вывод о принципиальной применимости информетрических моделей, базирующихся на данных законах, к процессам обращения к электронным источникам, и обсуждается наблюдаемое отклонение от «классических» вариантов данных закономерностей.
В заключении диссертационной работы подводятся итоги информетрического моделирования процессов обращения к электронным информационным ресурсам при помощи различных законов, делается вывод о пригодности большинства из них к такого рода исследованиям и обсуждаются перспективы дальнейшего применения информетрии к моделированию процессов производства и использования научной информации.
Положения диссертации, выносимые на защиту:
Методология применения основных информетрических законов (Брэдфорда, Парето, Леймкулера, Лотки, Ципфа) для математическому моделированию процесса обращения читателей к электронным информационным источникам.
Доказательство применимости основных информетрических моделей к экспериментальным данным по обращению читателей к электронным информационным источникам.
Сформулированный подход к применению основных информетрических моделей для выявления «ядра литературы» (наиболее важных информационных источников).
Построенная кривая Леймкулера - Лоренца, вычисленный индекс Джини и найденное «ядро литературы» для конкретных экспериментальных данных по обращению читателей к электронным информационным источникам.
1. Электронные издания и процесс их использования
Заключение диссертация на тему "Информетрическое моделирование процесса обращения к электронным информационным ресурсам"
Заключение
В настоящей диссертационной работе рассмотрены и исследованы на практике основные информетрические законы — Брэдфорда, Парето, Леймкулера, Лотки, Ципфа. Они применяются для математического моделирования процесса обращения к электронным информационным ресурсам — экспериментального массива, полученного из статистики использования онлайновых баз данных в Государственном университете — Высшей школе экономики.
В связи с тем, что исследуемые информетрические законы исходно были открыты для информационных процессов иного рода, их применение к использованию информации требовало выработки внятных методологических принципов. Эти принципы были взяты из концепции «информационного процесса производства»: производилась замена пар «источники — продукты» на те источники и продукты, которые фигурируют в изучаемом нами процессе. Например, в случае закона Брэдфорда пара «журналы — статьи, опубликованные в журналах» заменялась на «(электронные) журналы — статьи, открытые из журналов». Аналогичные переходы осуществлены для других законов. Также изменились и величины, которые законы связывают между собой: например, в случае закона Лотки вместо переменных «число статей — число авторов, написавших ровно столько статей» исследовалась зависимость «число открытых статей — число журналов, из которых открыто ровно столько статей». Это составило методику применения информетрических законов к моделированию использования информации.
Одним из ключевых направлений исследования было изучение применимости информетрических моделей к процессу обращения к электронным документам. Получены следующие результаты:
Модель Брэдфорда в ее вербальной формулировке применима недостаточно удовлетворительно: только при разбиении на большое число зон Брэдфорда в середине распределения имеется участок, где закон выполняется хорошо.
Закон Брэдфорда в графической форме выполняется хорошо: построенная кривая Брэдфорда («библиограф») имеет предсказанный законом вид. Прямолинейный участок, однако, не столь ярко выражен, отсюда, вероятно, плохое выполнение вербальной формы закона.
Принцип Парето 80/20 достаточно хорошо выполняется для каждого из изучаемых электронных ресурсов в отдельности. При объединении ресурсов в единый информационный массив выполнение закона становится еще более очевидным и принцип 80/20 переходит в более «концентрированный» вид 83/17.
Модель Леймкулера хорошо приближает экспериментальные данные, построенная на их основе кривая Леймкулера близка к предсказанной, при использовании оптимальных коэффициентов модели коэффициент детерминации достигает 0,94 (очень хорошее приближение).
Модель Лотки также хорошо выполняется для исследуемого процесса, однако требует специальной корректировки данных, без которой хорошо известная проблема аппроксимации данных в области источников с высокой продуктивностью препятствует применимости закона (степенной коэффициент Лотки оказывается очень малым, 0,96). Предложенная в настоящей работе корректировка данных позволяет, не отбрасывая при аппроксимации ни одного показателя высокопродуктивных источников, получить осмысленный массив, готовый к аппроксимации, при этом коэффициент Лотки становится равным 1,69, что свидетельствует об удовлетворительной применимости закона. — Закон Ципфа также выполняется, для данных в исходной форме получается приемлемый коэффициент распределения 1,34. Однако здесь также предложено видоизменение данных, увеличивающее их осмысленность и корректность приближения регрессионной прямой. В результате оказалось, что закон Ципфа для исследуемого процесса выполняется очень хорошо, причем в своей классической форме: степенной коэффициент очень близок к единице (0,97). Итак, резюмируя полученные результаты по всем моделям, можно сказать, что в целом информетрические законы хорошо применимы для процесса обращения к электронной информации. Ь
Еще одной центральной темой, рассмотренной в настоящей диссертационной работе, был вопрос об определении «ядра спроса», т. е. наиболее важных информационных источников, играющих ключевую роль в информационном обеспечении научного и образовательного процессов в вузе. Выделить такое ядро удалось при помощи двух различных информетриче-ских моделей — с использованием закона Брэдфорда и индекса Джини. Для обеих моделей определялись более «жесткий» (компактный) и «мягкий» варианты ядра. Важным полученным результатом стало совпадение полученных размеров ядра по порядку величины вне зависимости от используемой модели: в случае «мягкого» варианта это 77 (Брэдфорд) и 89 (Джини) журналов, в случае более «жесткого» — 28 и 37 изданий. Для самого компактного варианта ядра исследована роль каждого электронного ресурса в его формировании и установлено, что имеется важное разделение: некоторые ресурсы содержат большое число ядерных журналов, но при этом они «неэксклюзивны» в предоставлении доступа к этим изданиям, другие вносят мало журналов в ядро, но эти журналы имеются только в данном конкретном ресурсе и более нигде.
Фактически, все информетрические законы говорят о большой концентрации, наблюдаемой в «информационных процессах производства». И раз эти законы применимы к использованию электронных ресурсов, значит и здесь наблюдается высокая концентрация спроса. Однако рекомендации, которые следуют из полученных в настоящем исследовании результатов, должны быть «позитивными», а не «негативными»: следует наращивать представленность в фонде и объем доступа к ядерным журналам и изданиям, пользующимся высоким спросом, а не, например, отказываться от закупки всех журналов, не вошедших в ядро или в 20% спроса.
Именно в таком ключе результаты настоящего диссертационного исследования применяются в концепции формирования электронной подпис- / ки ГУ-ВШЭ. Например, было замечено, что три журнала Американской экономической ассоциации, вошедшие в самое компактное ядро спроса, представлены в электронном виде в ГУ-ВШЭ с двухгодичным «эмбарго» (искусственной задержкой между выходом печатной версии и предоставлением электронной копии, установленной издательством для баз данных посредников). Эта ситуация была исправлена дополнительной подпиской на эти журналы без эмбарго — напрямую у издательства.
По результатам настоящей работы можно обрисовать дальнейшие направления исследований. Прежде всего, требуется провести аналогичный анализ на базе статистики использования онлайн-ресурсов в других вузах и организациях иного типа (исследовательских институтах, публичных библиотеках и т. д.), чтобы набрать значительный массив информетрических исследований и данных о применимости информетрического моделирования к процессу обращения к электронным информационным ресурсам. Особенно интересно сравнить данные по отдельным организациям с результатами, полученными на уровне крупных консорциумов, объединяющих большое число институциональных подписчиков. Далее, к перспективным направлениям можно отнести математический и эмпирический анализ двух раздельных ступеней процесса использования электронной информации: ее производства и последующего обращения к ней. В настоящей работе эти стадии не разделялись, исследовался процесс в его целостности, однако такое более детальное изучение может пролить свет на законы концентрации и рассеяния спроса на электронные источники и внести вклад в дальнейшее развитие онлайн-информетрии. i
Библиография Писляков, Владимир Владимирович, диссертация по теме Математическое моделирование, численные методы и комплексы программ
1. Горъкова В. И. Информетрия (количественные методы в научно-технической информации) // Итоги науки и техники. Сер. Информатика. Т. 10. М.: ВИНИТИ, 1988. 328 с.
2. Гохберг Л. М. Статистика науки. М.: ТЕИС, 2003. 478 с.
3. Зибарева И. В., Писляков В. В., Теплова Т. Н., Нефёдов О. М. Библио-метрический анализ журнала «Успехи химии» // Вестник Российской академии наук. 2008. Т. 78, № 6. С. 490-499.
4. Индикаторы инновационной деятельности: 2007. Статистический сборник. М.: ГУ-ВШЭ, 2007. 398 с.
5. Индикаторы науки: 2008. Статистический сборник / Н. В. Городникова, С. Ю. Гостева, В. В. Писляков и др. Под ред. JI. М. Гохберга, A. JI. Кевеша, Я. И. Кузьминова и др. М.: ГУ-ВШЭ, 2008. 336 с.
6. Индикаторы образования: 2007. Статистический сборник. М.: ГУ-ВШЭ, 2007. 174 с.
7. Писляков В. В. Анализ контента ведущих электронных ресурсов актуальной зарубежной периодики: Препринт WP2/2002/02. М.: ГУ ВШЭ, 2002.
8. Писляков В. В. Спрос на электронные журналы в университетской библиотеке: работает ли правило Парето? // Научно-техническая информация. Сер. 1. 2005. № 12. С. 27-32.
9. Писляков В. В. Использование онлайновых ресурсов и управление электронной подпиской в библиотеке ГУ-ВШЭ // Университетское управление: практика и анализ. 2006. № 4 (44). С. 47-56.
10. Писляков В. В. Использование онлайновых ресурсов и управление электронной подпиской в библиотеке ГУ-ВШЭ // Университетские инновации: опыт Высшей школы экономики / Под ред. Я. И. Кузьминова. М.: ГУ-ВШЭ, 2006. С. 160-178.
11. Писляков В. В. Зачем создавать национальные индексы цитирования? // Научные и технические библиотеки. 2007. № 2. С. 65-71.
12. Писляков В. В. Методы оценки научного знания по показателям цитирования // Социологический журнал. 2007. № 1. С. 128-140.
13. Писляков В. В. Российский индекс научного цитирования: pro et contra // НТИ-2007. Материалы конференции. М.: ВИНИТИ, 2007. С.243-244.
14. Писляков В. В., Любушко Е. Э. Анализ научно-информационной деятельности (чтение, публикации, цитирование) ученых института катализа им. Г. К. Борескова СО РАН // Катализ в промышленности. 2007. № 3. "С.55-63.
15. Хайтун С. Д. Наукометрия: состояние и перспективы. М.: Наука, 1983. 344 с.
16. Яблонский А. И. Модели и методы исследования науки. М.: Эдиториал УРСС, 2001.400 с.
17. BagustA. A Circulation Model for Busy Public Libraries// Journal of Documentation. 1983. Vol. 39, No. 1. P. 24-37.
18. Bernal J. D. Preliminary analysis of pilot questionnaire on the use of scientific literature // The Royal Society Scientific Information Conference, 21 June 2 July 1948: Report and Papers Submitted. London: Royal Society, 1948. P. 589-637.
19. Blecic D. D. Monograph use at an academic health sciences library: The first three years of shelf life // Bulletin of the Medical Library Association. 2000. Vol. 88, No. 2. P. 145-151.
20. BoigF. S., Loftman K. A. Domestic and Foreign Periodicals in the Field of Petroleum Chemistry: A Statistical Analysis // Oil and Gas Journal. 1949 (21 April). Vol. 47. P. 199-208.
21. Bollen J., Van de Sompel II., Smith J. A., Luce R. Toward alternative metrics of journal impact: A comparison of download and citation data // Information Processing and Management. 2005. Vol. 41, Iss. 6. P. 1419-1440.
22. Bonitz M, Schmidt P. Transition from the macrolevel to the microlevel of information at rank distribution investigations of the report literature of an international information system// Scientometrics. 1982. Vol. 4, No. 4. P. 283-295.
23. Bookstein A. Informetric distributions, part II: Resilience to ambiguity // Journal of the American Society for Information Science. 1990. Vol. 41, Iss. 5. P. 376-386.
24. Bookstein A. Informetric distributions. III. Ambiguity and randomness // Journal of the American Society for Information Science. 1997. Vol. 48, Iss. 1. P. 2-10.
25. Bornmann L., Daniel H.-D. What do we know about the h index? // Journal of the American Society for Information Science and Technology. 2007. Vol. 58, Iss. 9. P. 1381-1385.
26. Bradford S. C. Sources of information on specific subjects // Engineering. 1934. Vol. 137. P. 85-86.
27. BradfordS. C. Documentation. London: Crosby Lockwood & Son, 1948.
28. Britten W. A. A use statistic for collection management: The 80/20 rule revisited// Library Acquisitions: Practice & Theory. 1990. Vol. 14, Iss. 2. P. 183-189.
29. BrodyT., Hamad S., Carr L. Earlier web usage statistics as predictors of later citation impact // Journal of the American Society for Information Science and Technology. 2006. Vol. 57, Iss. 8. P. 1060-1072.
30. Brookes В. С. The derivation and application of the Bradford-Zipf distribution // Journal of Documentation. 1968. Vol. 24, No. 4. P. 247-265.
31. Brookes В. С. Bradford's law and the bibliography of science// Nature. 1969. Vol. 224. P. 953-956.
32. Brookes В. C. The complete Bradford-Zipf 'bibliograph'// Journal of Documentation. 1969. Vol. 25, No. 1. P. 58-60.
33. BulickS., Sabor W. N., FlynnR. R. Circulation and in-house use of books // Use of Library Materials: the University of Pittsburgh study. N. Y.: M. Dekker, 1979. P. 9-55.
34. BulickS. Book Use as a Bradford-Zipf Phenomenon // College & Research Libraries. 1978. Vol. 39. P. 215-219.
35. Burrell Q. L. A Simple Stochastic Model for Library Loans // Journal of Documentation. 1980. Vol. 36. P. 115-132.
36. Burrell Q. L. Alternative Models for Library Circulation Data // Journal of Documentation. 1982. Vol. 38, No. 1. P. 1-13.
37. Burrell Q. L. The 80/20 Rule: Library Lore or Statistical Law? // Journal of Documentation. 1985. Vol. 41, No. 1. P. 24-39.
38. Burrell Q. L. The Gini index and the Leimkuhler curve for bibliometric processes // Information Processing and Management. 1992. Vol. 28, No. 1. P. 19-33.
39. Burrell Q. L. Defining a core: Theoretical observations on the Egghe-Rousseau proposal // Scientometrics. 2003. Vol. 57, No. 1. P. 75-92.
40. Burrell Q. L. «Type/token-taken» informetrics: Some comments and further examples I I Journal of the American Society for Information Science and Technology. 2003. Vol. 54, Iss. 13. P. 1260-1263.
41. Burrell Q. L., Сапе V. R. The Analysis of Library Data // Journal of the Royal Statistical Society, Series A. 1982. Vol. 145. P. 439^163.
42. Campbell M. A Survey of the Use of Science Periodicals in Wolverhampton Polytechnic Library //Research in Librarianship. 1974. Vol. 5. P. 39-71.
43. Chen C.-C. The Use Patterns of Physics Journals in a Large Academic Research Library // Journal of the American Society for Information Science. 1972. Vol. 23, Iss. 4. P. 254-270.
44. Chung Y. Bradford distribution and core authors in classification systems literature // Scientometrics. 1994. Vol. 29, No. 2. P. 253-269.
45. Cline G. S. Application of Bradford's Law to Citation Data // College & Research Libraries. 1981. Vol. 42, No. 1. P. 53-61.
46. Cole P. F. The Analysis of Reference Question Records as a Guide to the Information Requirements of Scientists I I Journal of Documentation. 1958. Vol. 14, No. 4. P. 197-207.
47. Cole P. F. A New Look at Reference Scattering // Journal of Documentation. 1962. Vol. 18, No. 2. P. 58-64.
48. Condon E. U. Statistics of vocabulary// Science. 1928. Vol. 67, No. 1733. P. 300.
49. Cooper M. D., McGregor G. F. Using article photocopy data in bibliographic models for journal collection management// Library Quarterly. 1994. Vol. 64, No. 4. P. 386^113.
50. Costas R., Bordons M. The h-index: Advantages, limitations and its relation with other bibliometric indicators at the micro level // Journal of Infor-metrics. 2007. Vol. 1, Iss. 3. P. 193-203.
51. Davis P. M. Patterns in Electronic Journal Usage: Challenging the Composition of Geographic Consortia// College and Research Libraries. 2002. Vol. 63, No. 6. P. 484—497.
52. Diedrichs C. P. E-journals: the OhioLINK experience //Library Collections, Acquisitions, and Technical Services. Vol. 25, Iss. 2 (Summer 2001). P. 191-210.
53. Donohue J. S. Understanding scientific literatures: a bibliometric approach. London, 1973.
54. DrottM. C., Griffith В. C. An Empirical Examination of Bradford's Law and the Scattering of Scientific Literature // Journal of the American Society for Information Science. 1978. Vol. 29, Iss. 5. P. 238-246.
55. Egghe L. The Dual of Bradford's Law // Journal of the American Society for Information Science. 1986. Vol. 37, Iss. 4. P. 246-255.
56. Egghe L. The duality of informetric systems with applications to the empirical laws // Journal of Information Science. 1990. Vol. 16, No. 1. P. 17-27.
57. Egghe L. Applications of the Theory of Bradford's Law to the Calculation of Leimkuhler's Law and to the Completion of Bibliographies // Journal of the American Society for Information Science. 1990. Vol. 41, Iss. 7. P. 469492.
58. Egghe L. Type/Token-taken informetrics // Journal of the American Society for Information Science and Technology. 2003. Vol. 54, Iss. 7. P. 603-610.
59. Egghe L. Positive reinforcement and 3-dimensional informetrics // Scien-tometrics. 2004. Vol. 60, No. 3. P. 497-509.
60. Egghe L. Power Laws in the Information Production Process: Lotkaian Informetrics. Amsterdam e. a.: Elsevier, 2005. 428 p.
61. Egghe L. Relations Between the Continuous and the Discrete Lotka Power Function Bibliographies // Journal of the American Society for Information Science. 2005. Vol. 56, Iss. 7. P. 664-668.
62. Egghe L., Rousseau R. Reflections on a deflection: A note on different causes of the Groos droop // Scientometrics. 1988. Vol. 14, No. 5-6. P. 493511.
63. Egghe L., Rousseau R. Introduction to Informetrics: Quantitative Methods in Library, Documentation and Information Science. Amsterdam e. a.: Elsevier Science Publishers, 1990.
64. Egghe L., Rousseau R. A proposal to define a core of a scientific subject: A definition using concentration and fuzzy sets // Scientometrics. 2002. Vol. 54, No. l.P. 51-62.
65. Egghe L., Rousseau R. An informetric model for the Hirsch-index // Scientometrics. 2006. Vol. 69, No. 1. P. 121-129.
66. Eldredge J. D. The vital few meet the trivial many: Unexpected use patterns in a monographs collection // Bulletin of the Medical Library Association. 1998. Vol. 86, No. 4. P. 496-503.
67. Estoup J. B. Gammes Stenographiques. Paris: Institut Stenographique, 1916.
68. Eto H., Candelaria P. M. Applicability of the Bradford Distribution to International Science and Technology Indicators // Scientometrics. 1987. Vol. 11, No. 1-2. P. 27-42.
69. Evans P., Peters J. Analysis of the dispersal of use for journals in Emerald Management Xtra (EMX) // Interlending and Document Supply. 2005. Vol. 33, No. 3. P. 155-157.
70. Fleming T. P., Kilgour F. G. Moderately and Heavily Used Biomedical Journals// Bulletin of the Medical Library Association. 1964. Vol.52, No. l.P. 234-241.
71. GarfieldE. The 250 Most-Cited Primary Authors, 1961-1975. Part I. How the Names Were Selected // Current Comments. 1977. No. 49. P. 5-15.
72. Garfield E. Bradford's law and related statistical patterns // Current Contents. 1980. No. 19. P. 5-12.
73. Garfield E., Sher I. H. New Factors in the Evaluation of Scientific Literature Through Citation Indexing // American Documentation. 1963. Vol. 14, No. 3.P. 195-201.
74. Gini C. Variability e Mutabilita: Contributo alio studio delle distribuzioni e delle relazioni statistiche. Bologna: Cuppini, 1912. 156 p.
75. Gojfman W., Warren K. S. Dispersion of Papers among Journals based on a Mathematical Analysis of Two Diverse Medical Literatures // Nature. 1969. Vol. 221. P. 1205-1207.
76. Gojfman W., Warren K. S. Bradford's Law and Library Acquisitions // Nature. 1970. Vol. 226. P. 922-923.
77. Goodman D. The Criteria for Open Access // Serials Review. 2004. Vol. 30, No. 4. P. 258-270.
78. Gorman M. A core collection of graphic novels: Here are 30 titles every library serving young people should own // School Library Journal. 2002. Vol. 48, Iss. 8. P. 44.
79. Groos О. V. Bradford's law and Keenan-Atherton data // American Documentation. 1967. Vol. 18, No. 1. P. 46.
80. Hardesty L. Use of library materials at a small liberal arts college // Library Research. 1981. Vol. 3. P. 261-282.
81. Herdan G. Type-Token Mathematics: A Textbook of Mathematical Linguistics. Hague: Mouton, 1960.448 р.
82. Hindle A., Worthington D. Simple Stochastic Models for Library Loans // Journal of Documentation. 1980. Vol. 36, Iss. 3. P. 209-213.
83. Hirsch J. E. An index to quantify an individual's scientific research output // PNAS. 2005. Vol. 102, No. 46. P. 16569-16572.
84. Hoffert B. Read any good poetry lately? Fifty core titles form U. S. poets plus three Nobelists who have influenced U. S. poetry // Library Journal. 1997. Vol. 122, Iss. 6. P. 94-95.
85. Hooper В. Core Collection: China Yesterday and Tomorrow// Booklist. 2006. Vol. 102, Iss. 16. P. 39.
86. Juran J. M. The Non-Pareto Principle; Mea Culpa // Quality Progress. 1975. Vol. 8. P. 8.
87. KendallM. G. The Bibliography of Operational Research// OR. 1960. Vol. 11, No. 1/2. P. 31-36.
88. Kingman J. F. C. e. a. Discussion of the Paper by Mr Burrell and Professor Cane // Journal of the Royal Statistical Society, Series A. 1982. Vol. 145. P. 463-471.
89. Lawani S. M. Bradford's Law and the Literature of Agriculture // International Library Review. 1973. Vol. 5, Iss. 3. P. 341-350.
90. LeimkuhlerF. F. The Bradford Distribution// Journal of Documentation. 1967. Vol. 23. P. 197-207.
91. Lockett M. W. The Bradford distribution. A review of the literature, 19341987// Library and Information Science Research. 1989. Vol. 11, Iss. 2. P. 21-36.
92. Lorenz M. O. Methods of measuring the concentration of wealth // Journal of the American Statistical Association. 1905. Vol. 9, No. 70. P. 209-219.
93. Lotka A. J. The frequency distribution of scientific productivity // Journal of the Washington Academy of Sciences. 1926. Vol. 16. P. 317-323.
94. Lynch C. A. Institutional Repositories: Essential Infrastructure for Scholarship in the Digital Age // Portal: Libraries and the Academy. 2003. Vol. 3. No. 2. P. 327-336.
95. Main Science and Technology Indicators. Vol. 2008/1. OECD, 2008. 105 p.
96. Mankin C. J., Bastille J. D. An analysis of the differences between den-sity-of-use ranking and raw-use ranking of library journal use// Journal of the American Society for Information Science. 1981. Vol. 32, Iss. 3. P. 224228.
97. Meadows A. J. The citation characteristics of astronomical research literature // Journal of Documentation. 1967. Vol. 23, No. 1. P. 28-33 (перепеч. в: Journal of Documentation. 2004. Vol. 60, No. 6. P. 597-600).
98. MoedH. F. Statistical relationships between downloads and citations at the level of individual documents within a single journal // Journal of the American Society for Information Science and Technology. 2005. Vol. 56, Iss. 10. P. 1088-1097.
99. Morton D. J. Analysis of Interlibrary Requests by Hospital Libraries for Photocopied Journal Articles // Bulletin of the Medical Library Association. 1977. Vol. 65, No. 4. P. 425-432.
100. Naranan S. Power Law Relations in Science Bibliography A Self-consistent Interpretation // Journal of Documentation. 1971. Vol. 27, No. 2. P. 83-97.
101. National Science Board. Science and Engineering Indicators 2008. Vol. 1-2. Arlington, VA: National Science Foundation, 2008.
102. Nicolaisen J., Hjorland B. Practical potentials of Bradford's law: A critical examination of the received view // Journal of Documentation. 2007. Vol. 63, No. 3. P. 359-377.
103. Nisonger Th. E. Journals in the Core Collections: Definition, Identification, and Applications // Serials Librarian. 2007. Vol. 51, No. 3-4. P. 51-73.r
104. Pareto V. Cours d'Economie Politique. Vol. 2. Lausanne: 1 Universite de Lausanne, 1897.
105. Pislyakov V. Comparing two «thermometers»: Impact factors of 20 leading economic journals according to Journal Citation Reports and Scopus // Scientometrcis. 2009 (accepted for publication).
106. PraunlichP., KrollM. Bradford's Distribution: A New Formulation// Journal of the American Society for Information Science. 1978. Vol. 29, Iss. 2. P. 51-55.
107. Price D. J. de S. Networks of Scientific Papers // Science. 1965. Vol. 149, No. 3683. P. 510-515.
108. QiuL., TagueJ. Complete or incomplete data sets. The Groos Droop investigated // Scientometrics. 1990. Vol. 19, No 3-4. P. 223-237.
109. Salatin J.-M., Lafouge Т., Воикасет С. Demand for scientific articles and citations: An Example from the Institut de 1'information scientifique et technique (France) // Scientometrics. 2000. Vol. 47, No. 3. P. 561-588.
110. Schloegl С., GorraizJ. Document delivery as a source for bibliometric analyses: the case of Subito // Journal of Information Science. 2006. Vol. 32, Iss. 3.P. 223-237.
111. Scigliano M. Serial Use in a Small Academic Library: Determining Cost-Effectiveness 112000. Serials Review. Vol. 26, No. 1. P. 43-52.
112. Seaman D. Core Collection: Climate Change // Booklist. 2006. Vol. 103. Iss. 7. P. 19.
113. Sennyey P., EllernG.D., Newsome N. Collection Development and a Long-Term Periodical Use Study: Methodology and Implications // Serials Review. 2002. Vol. 28, No. 1. P. 38-44.
114. Sharma H. P. Download plus citation counts — a useful indicator to measure research impact // Current Science. Vol. 92, No. 7. P. 873.
115. Stevens S. R. Mapping the literature of cytotechnology // Bulletin of the Medical Library Association. 2000. Vol. 88 (2). P. 172-177.
116. Tonta Y., Al U. Scatter and obsolescence of journals cited in theses and dissertations of librarianship // Library & Information Science Research. 2006. Vol. 28, Iss. 2. P. 281-296.
117. Tonta Y, Unal Y. Scatter of journals and literature obsolescence reflected in document delivery requests // Journal of the American Society for Information Science and Technology. 2005. Vol. 56, Iss. 1. P. 84-94.
118. Trueswell R. L. Some Behavorial Patterns of Library Users: The 80/20 Rule // Wilson Library Bulletin. 1969. Vol. 43. P. 458-461.
119. Urbano C. e. a. The use of consortially purchased electronic journals by the CBUC (2000-2003) // D-Lib Magazine. 2004. Vol. 10, No. 6.
120. Urquhart D. J., Bunn R. M. A National Loan Policy for Scientific Serials //Journal of Documentation. 1959. Vol. 15, No. 1. P. 21-37.
121. Vickery В. C. Bradford's law of scattering // Journal of Documentation. 1948. Vol. 4, No. 3. P. 198-203.
122. VlachyJ. Frequency distributions of scientific performance. A bibliography of Lotka's law and related phenomena// Scientometrics. 1978. Vol. 1, No. l.P. 107-130.
123. Weislogel J. Elsevier Science Digital Libraries Symposium II: a conference report// Library Collections, Acquisitions, and Technical Services. Vol. 23, Iss. 4 (Winter 1999). P. 459-467.
124. WenderR. Hospital Journal Title Usage Study// Special Libraries. 1975. Vol. 66, No. 11. P. 532-537.
125. Wood D. N. Bower C. A. Survey of Medical Literature Borrowed from the National Lending Library for Science and Technology // Bulletin of the Medical Library Association. Vol. 57, No. 1. P. 47-63.
126. WoodD. N., Bower C. A. The use of social science periodical literature // Journal of Documentation. 1969. Vol. 25. P. 108-122.
127. Yablonsky A. I. On fundamental regularities of the distribution of scientific productivity// Scientometrics. 1980. Vol. 2, No. 1. P. 3-34.
128. ZipfG.K. Human Behavior and the Principle of Least Effort: An Introduction to Human Ecology. Cambridge, Mass.: Addison-Wesley, 1949. 573 p.
-
Похожие работы
- Модель и прототип программной системы управления научно-образовательной электронной библиотекой
- Математическая модель и прикладные разработки гибридных технологий доставки котента в электронных образовательных системах
- Региональные электронные информационные ресурсы культурно-образовательной сферы: методологические проблемы интеграции
- Модель и метод построения семейства профилей защиты для беспроводной сети
- Электронная библиотека как форма бытования библиотеки в информационном обществе
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность