автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Научное мероприятие как объект информационной деятельности: базы данных и информационные продукты

кандидата технических наук
Пожидаев, Алексей Викторович
город
Москва
год
2008
специальность ВАК РФ
05.25.05
цена
450 рублей
Диссертация по документальной информации на тему «Научное мероприятие как объект информационной деятельности: базы данных и информационные продукты»

Автореферат диссертации по теме "Научное мероприятие как объект информационной деятельности: базы данных и информационные продукты"

На правах рукописи /в-}

Пожидаев Алексей Викторович

НАУЧНОЕ МЕРОПРИЯТИЕ КАК ОБЪЕКТ ИНФОРМАЦИОННОЙ ДЕЯТЕЛЬНОСТИ: БАЗЫ ДАННЫХ И ИНФОРМАЦИОННЫЕ ПРОДУКТЫ

Специальность 05.25.05 Информационные системы и процессы, правовые аспекты

информатики

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических н?" ~

ьл опгн? 003458428

Москва - 2008

003458428

Работа выполнена во Всероссийском институте научной и технической информации (ВИНИТИ) РАН

Научный руководитель:

Цветкова Валентина Алексеевна

профессор, доктор технических наук

Офнинальные оппоненты:

Черный Аркадий Иванович

профессор, доктор технических наук

Глухов Виктор Алексеевич

кандидат технических наук

Ведущая организация:

Библиотека по естественным наукам (БЕН) РАН

Защита состоится 28 января 2009 года, в 11 часов на заседании диссертационного совета Д002.026.01 при Всероссийском институте научной и технической информации РАН по адресу: 125190, Москва, ул. Усиевича, д.20, корп.1.

С диссертацией можно ознакомиться в библиотеке ВИНИТИ РАН

Автореферат разослан 22 декабря 2008 г.

Ученый секретарь диссертационного совета

профессор, доктор технических наук В.А. Цветкова

Общая характеристика работы

Актуальность темы

Научные коммуникации являются основой и транспортной средой науки. Без общения, без обмена опытом и мнениями невозможно достижение научных результатов. Если до конца 20-го столетия одной из наиболее эффективных форм научного общения были конференции, симпозиумы и другие научные мероприятия с прямым общением участников, то сейчас наибольшее значение приобретают научные коммуникации с использованием технологий Интернета (электронная почта, электронные журналы, электронные конференции и т.д.). Однако эти технологии не могут полностью заменить непосредственное общение ученых и специалистов, поэтому значение традиционных научных мероприятий остается востребованным.

Для того чтобы быть на передовом крае науки, специалист должен владеть информацией о проводимых мероприятиях по профилю его научной деятельности. Учитывая то, что по очень грубым оценкам в мире ежегодно проводится свыше 5 тысяч научных мероприятий (фундаментальные и технические науки), выбор и самостоятельное формирование подобного пользовательского списка представляется достаточно трудоемким процессом. До появления Интернета единственным источником сводных, систематизированных сведений о научных мероприятиях были печатные издания, наиболее ценными среди них - сводные обобщающие материалы. Практически все информационные центры издают или издавали подобные информационные материалы, научные общества и организации рассылали списки планируемых мероприятий. В ВИНИТИ РАН таким изданием является «Бюллетень международных научных съездов, конференций,

конгрессов, выставок», издающийся с 1960 г. Сейчас автоматизированные и телекоммуникационные технологии активно вытесняют печатные издания, которые становятся производным элементом от самостоятельно развивающихся электронных технологий, основанных на поддержании банков данных. Банки данных становятся основным информационным продуктом, при этом пользователь получает принципиально новые возможности: он может активно работать со всем ретроспективным объемом данных, иметь доступ к оперативно подготавливаемой информации.

Принимая во внимание вышеизложенное, актуальность создания системы была продиктована не только научно-методическими соображениями, но и возможной коммерческой эффективностью.

Степень разработанности проблемы

Проведенный в течение 2005 - 2007 гг. анализ показал, что вопросами сбора и систематизации данных о проводимых научных мероприятиях занимается достаточно большое количество организаций, причем большинство из них предоставляет через Интернет бесплатный доступ к созданным ресурсам. Примером таких агрегаторов в России являются Министерство образования и науки Российской Федерации (Федеральное Агентство по Науке и Инновациям) http://www.fasi.gov.ru и Информационная система "Наука и Инновации" http://www.rsci.ru. Среди зарубежных источников можно упомянуть сайты http://www.allconferences.com, http://www.eventseye.com/, http://atlas-conferences.com/, сайты крупнейших информационных центров (ВИНИТИ РАН, ИНИОН РАН, British Library, The Library of Congress, Chemical Abstracts Service, INIST - Institute for Scientific and Technical Information -France).

Многие поисковые машины имеют разделы, связанные с информацией по конференциям. Например, самый крупный поисковик Google имеет специализированный раздел

http://www.google.com/Top/Science/Conferences/.

Однако более детальный анализ web-сайтов (порталов) со списками планируемых мероприятий показал, что практически каждый из них охватывает сравнительно небольшой объем информации (в большинстве случаев случайной или очень узкой тематики), информация плохо структурирована, пользовательский интерфейс ориентирован на англоязычного пользователя.

К сожалению, в открытом доступе практически отсутствует информация о принципах наполнения и функционирования подобных ресурсов. Дальнейшее рассмотрение технологий использования информации о научных мероприятиях проводилось на примере ВИНИТИ РАН.

До 2005 года информация о научных мероприятиях, поступавшая в ВИНИТИ РАН, аккумулировалась в регистрационном массиве опубликованных материалов, т.к. информация о мероприятиях собиралась на основе выпущенных по их итогам сериальных изданий и (или) изданий книжного типа.

В то время было исследовано три варианта использования информации из регистрационного массива - наполнение электронного каталога HTJI, создание указателя прошедших научных мероприятий, информация о которых находится в фондах ВИНИТИ РАН и наполнение «Бюллетеня научных съездов, конференций, конгрессов, выставок».

Однако информация в регистрационном массиве опубликованных материалов отличалась отсутствием формализации и отсутствием контроля на дублирующиеся записи, причем дублирование возможно как

физическое (копии), так и смысловое (если на источниках указанно было разное наименование конференции), что затрудняло ее использование.

Поэтому в ВИНИТИ РАН началась работа по созданию массива данных по научным мероприятиям, информация о которых находится в сфере внимания Института - ведущего информационного центра страны в области научно-технической информации. Важным фактором необходимости создания такого продукта является формирование механизма для обеспечения наиболее полных и ценных поступлений во входной поток Института материалов прошедших конференций -объемной и важной его составляющей. Следует отметить, что в большинстве случаев материалы конференций - бесплатный информационный продукт, часто становится решающим фактором при комплектовании входного потока научно-технической литературы (НТЛ). Наличие оперативно поддерживаемого массива планируемых научных мероприятий позволит автоматизировать процессы взаимодействия с оргкомитетами для получения соответствующих материалов. В качестве примера важности научных мероприятий можно отметить то, что Банк данных ВИНИТИ РАН включает до 20% из статей, взятых из материалов научных мероприятий.

На пути к созданию подобного массива приходится сталкиваться с некоторыми трудностями, как то: отсутствие надежных каналов получения информации (зачастую, даже организаторы мероприятия до последнего момента не имеют точной информации о дате и месте проведения), разные стили оформления материалов разными организациями и объективные трудности, связанные с переводом не русскоязычной информации.

Дополнительную сложность создает разнообразие ситуаций, в которых может проходить научное мероприятие. Если еще 30 лет назад

такие случаи можно было ограничить заочными конференциями, то уже 10 лет назад возникло понятие "мероприятие, проводимое в сети Internet". В самом деле, развитие компьютерной техники и растущая глобализация позволяют проводить мероприятие, которое если не по содержанию, то, по крайней мере, по технологии проведения, отличается от традиционных мероприятий 20-го века.

Такие мероприятия, например, не имеют географического места проведения, они могут не иметь четких сроков проведения, материалы таких мероприятий могут не публиковаться в виде бумажных изданий. Оргкомитет таких мероприятий тоже достаточно расплывчат, ведь для организации электронной конференции необходимы, по сути, только участники и кто-то, кто возьмет на себя роль "организатора" -предоставит серверные мощности и обеспечит связь между участниками и рассылку оповещений.

Учитывая тенденции развития современного общества в целом и науки в частности, такие мероприятия будут проводиться все чаще и будут постепенно вытеснять традиционные конференции, где участникам часто приходилось ехать в другую страну, а организаторам испытывать проблемы с размещением участников и регламентом мероприятия.

Цель работы

Цель работы заключается в разработке модели информационного объекта "описание научного мероприятия" для обработки, нормализации и классификации информации о научных мероприятиях на примере ВИНИТИ РАН для расширения спектра информационных продуктов.

Задачи работы

Задачами, решаемыми в данной работе, являлись:

• Создание единого и четко структурированного массива описаний научных мероприятий;

• Создание механизмов формирования существующих и новых информационных продуктов в автоматизированном режиме;

• Разработка технологического процесса обработки информации о научных мероприятиях, технологии обеспечения жизненного цикла информационных объектов «описание научного мероприятия» и интеграция новой технологии в существующие технологические процессы;

• Создание программного обеспечения, призванного обеспечить: необходимые инструменты управления для администраторов массива мероприятий; автоматизированные рабочие места для пользователей массива мероприятий; механизмы формирования оригинал-макетов печатных информационных продуктов и взаимодействие с существующими программными продуктами;

• Разработка концепции раздела, посвященного научным мероприятиям на сайте ВИНИТИ РАН в рамках электронного каталога НТЛ с реализацией функций представления клиентам информации о научных мероприятиях, на примере ВИНИТИ РАН, предоставления подписчикам информации об анонсированных мероприятиях и сбора информации о предстоящих мероприятиях непосредственно от организаторов;

• Разработка и создание оффлайновой версии раздела электронного каталога НТЛ, посвященного научным мероприятиям, для распространения на электронных носителях.

Объект исследования

В качестве объекта исследования рассматривались описания научных конференций, симпозиумов, семинаров, выставок и т.п., проводившихся или планирующихся к проведению по всему миру, по любой тематике и имеющих в качестве рабочего языка основные европейские языки.

Методы исследования

Методологической основой данной работы является системный анализ. Для теоретических исследований применялись методы теории вероятностей, математической статистики, теории информации.

Научная новизна работы

Впервые сформулирована концепция классификации описаний научных мероприятий по схеме «разовое/серийное», разделения описаний совместно проходящих мероприятий, создания «обобщенных монотематических» и «обобщенных политематических» описаний, объединяющих серии регулярных описаний, что позволяет обнаруживать «лакуны» - отсутствующие в базе данных описания мероприятий и сохранять цепочку мероприятий, даже в том случае, если мероприятие за свою историю неоднократно кардинально меняло название.

Доказана возможность формирования массива сведений, относящихся к определенной области человеческих знаний, путем обработки и использования в технологических процессах и в создании готовых продуктов мультимедийной информации на примере информации о научных мероприятиях.

Обоснованность и достоверность результатов работы

Обоснованность и достоверность результатов диссертационной работы подтверждаются успешным практическим использованием созданной базы данных по научным мероприятиям в технологических процессах Всероссийского Института Научной и Технической Информации РАН, а также:

■ Результатами анализа существующих отечественных и зарубежных печатных сборников и электронных информационных ресурсов, содержащих анонсы научных мероприятий;

■ Применением в функциональных модулях технологии программных средств, основанных на международных стандартах;

■ Увеличением запрашиваемости одного из основных изданий ВИНИТИ РАН, посвященного анонсам научных мероприятий -«Бюллетеня международных научных съездов, конференций, конгрессов, выставок».

Практическая значимость работы

Разработанная автоматизированная система обработки информации о российских и зарубежных научных мероприятиях имеет большое практическое значение в деятельности ВИНИТИ РАН -крупнейшего информационного центра, обеспечивающего с 1952 г. российское и мировое сообщество научно-технической информацией по проблемам точных, естественных и технических наук.

В процессе разработки технологии обработки информации и создания программного обеспечения были реализованы оригинальные алгоритмы обработки и нормализации произвольной информации,

нашедшие применение и в других программных продуктах, разрабатываемых в ВИНИТИ РАН.

В результате создания единого массива описаний научных мероприятий сформирована база данных о прошедших научных мероприятиях, которая имеет важное значение для профильных специалистов, комплектования библиотек и информационных центров.

При создании автоматизированной системы были сформированы словари понятий и словари с переводами этих понятий на основные языки, что важно для мирового научного сообщества.

В результате перевода технологии формирования оригинал-макета «Бюллетеня международных научных съездов, конференций, конгрессов, выставок» на использование автоматизированной технологии формирования оригинал-макета и увеличения количества регистрируемых анонсов, удалось вернуть интерес подписчиков к изданию и улучшить ситуацию с тиражами.

Создание раздела, посвященного научным мероприятиям, на сайте свидетельствует о внимании к современным тенденциям в области информации и обеспечивает оперативный доступ для посетителей сайта к интересующей их информации. Формируемый на основе той же информации CD-ROM с оффлайновой версией раздела сайта ВИНИТИ РАН, посвященного научным мероприятиям, является новым и перспективным информационным продуктом ВИНИТИ РАН.

Информационные листы, формируемые в автоматизированном режиме из анонсов мероприятий, относящихся к определенным тематикам, стали неотъемлемой частью одного из основных продуктов ВИНИТИ РАН - Реферативного журнала.

Реализация результатов работы

Разработанная в рамках диссертационной работы технология наполнения базы данных по научным мероприятиям и формирования на ее основе информационных продуктов внедрена и успешно используется в ВИНИТИ РАН

Области применения результатов

Результаты работы могут быть использованы в самых разнообразных областях человеческой деятельности, связанных с обработкой информации и, в том числе, обработкой неструктурированной информации.

Также, результаты работы имеют практическую ценность с точки зрения реализации алгоритмов сбора, обработки, корректировки информации и формирования на ее основе различных информационных продуктов.

После адаптации, система может быть использована для создания указателя выставок, системы анализа информации, рассеянной в Интернете, на интересующую заказчика тему, подсистемы учета выступлений на конференциях молодых ученых и формировании индекса цитирования на основе материалов конференций.

Апробация работы

Материалы диссертации докладывались на следующих конференциях:

■ 13-я Международная конференция «Крым 2006. "Библиотеки и

информационные ресурсы в современном мире науки, культуры,

образования и бизнеса"» (Украина, г. Судак, 2006);

■ 7-я Международная конференция «Научно-техническая информация - 2007» Информационное общество: инновации в информационном обслуживании (Россия, г. Москва, 2007);

■ 10-я Юбилейная международная научно-практическая конференция "SCIENCE ONLINE: электронные информационные ресурсы для науки и образования" (Египет, г. Шарм эль-Шейх, 2007).

Положения, выносимые на защиту

1. Разработка структуры информационного объекта "описание научного мероприятия";

2. Методика создания и поддерживания единого массива описаний научных мероприятий с использованием методов обработки частично формализованной информации;

3. Технология обработки и использования информации об отечественных и зарубежных научных мероприятиях для создания различных информационных продуктов на основе единого массива.

Публикации

Основные результаты изложены в 6 опубликованных работах, список которых приводится на стр. 23-24. В журналах включенных в перечень ВАК России - 1 публикация

Структура и объем диссертации

Диссертация состоит из введения, трех глав, заключения, списка цитируемой литературы, включающего 95 наименований, и 1

приложения. Работа изложена на 131 странице машинописного текста, иллюстрированного 55 рисунками и 10 таблицами..

Содержание работы

Во введении дана общая характеристика работы, обоснована актуальность выбранной темы, сформулированы цели и задачи исследования, показана научная новизна и практическая ценность работы. Кратко изложено содержание диссертации по главам.

В первой главе (Информационный объект «научное мероприятие» как основа для функционирования базы данных) приведен анализ существующих сборников описаний научных мероприятий и форматов описаний. Анализируется разработанный формат информационного объекта «описание научного мероприятия». Приводится структура массива, объединяющего описания научных мероприятий. Рассматриваются имеющиеся технологические потоки и их особенности. Большое внимание уделено аспекту обработки неформализованной информации о научных мероприятиях с применением алгоритмов нечеткого сравнения строк и созданных словарей основных терминов на различных языках. Исследуется существующая программно-технологическая поддержка массива научных мероприятий.

Рассматриваются основные элементы описания научного мероприятия, приводится анализ структуры описаний научных мероприятий в различных печатных сборниках и электронных ресурсах, рассматривается структура описания в создаваемом информационном массиве и иерархия этих описаний.

Анализируется структура массива описаний научных мероприятий, ее реализация в СУБД MS SQL Server и программное

обеспечение. На рисунке 1 приведены основные таблицы массива мероприятий.

Основная таблица (£УЕЛ/ТЗ_иР)

РК Идентификатор

Наименование оригинальное

Нонер к наименованию

Наименование русскоязычно«

Параллельное наименование мероприятия

Тип мероприятия

Форма проведения мероприятия

Язык ВО

Параллельный яэык БО

Характер мероприятия

Географический охват мероприятия

Состав участников

Актуальность описания

День начала проведения мероприятия

Месяц начала проведения мероприятия

Год начала проведения мероприятия

День окончания проведения мероприятия

Месяц окончания проведения мероприятия

Год окончания проведения мероприятия

Страна проведения

Место проведения мероприятия

Адрес мероприятия

Рабочий яэык

Ключевые слова

Краткое резюме

Материалы мероприятия (ЕУЕЫТ5_иР_МАТЕР)

Идентификатор

Порядковый номер материала 8ид материала

Наличие материалов в ВИНИТИ

Вид носителя материала

Сведения об опубликованных материалах

Секции (ЕУЕЫТЗ_иР_8ЕСТ)

РК Илгнуибикатоо

Номер секции Название секции Тип секции

Тематика (ЕУЕЫТ5_11Р_«иВ)

ИаситиФчщдр

Код тематики (ГРНТИ) Код тематики (РЖ)

Организаторы (ОРОМА<№)

Статус организатора Порядковый номер организатора Код организатора

Наименование организатора полное Наименование организатора краткое Аббревиатура наименования организатора Яэык БО

Страна расположения организатора

Город официального расположения организатора

Корреспондентский адрес

Электронная почта

Телефон организатора

Факс организатора

Электронный адрес организатора

ФИО контактного лица организатора

Ученая степень контактного лица

Должность контактного лица

Связи между описаниями мероприятий (ЕУЕМТЗ_ир_8У2)

Идентификатор мероприятия Тип связи

Рис. 1 Основные таблицы массива мероприятий

Исследуются имеющиеся информационные потоки, технология наполнения массива научных мероприятий, приводятся данные по подразделениям, участвующим в наполнении массива. Рассматриваются особенности, присущие внутренним и внешним потребителям информации о научных мероприятиях. На рисунке 2 приведена общая схема получения, обработки и использования информации.

Рис. 2 Общая схема получения, обработки и использования информации

Приведена статистика по наполнению массива научных мероприятий, а также различные срезы массива (по типу, по месту проведения мероприятий, по тематике и т.д.)

Рассмотрены основные аспекты обработки неформализованной или частично формализованной информации о научных мероприятиях на примере обработки данных из регистрационного массива опубликованных материалов, где хранится информация о научных мероприятиях. Приведены данные сравнительного анализа структур описаний в массиве научных мероприятий и регистрационном массиве. Рассмотрен алгоритм обработки описаний из регистрационного массива. Приводится обоснование использования нечеткого сравнения строк при поиске дублирующихся описаний мероприятий. Исследуются различные алгоритмы сравнения, приводятся сравнительные тесты этих алгоритмов. Обосновывается применение в итоговой обработке алгоритма,

основанного на сравнении по q-гpaммaм (использовался модифицированный алгоритм, использующий поиск по хеш-ключам, представляющим собой сложную структуру, в основание которой положены частотные сигнатуры строк по биграммам для ускорения времени работы и снижения объема служебной работы). Временная сложность (Т) алгоритма составляет:

где А, В - длины сравниваемых строк, Е - размер алфавита q - величина ц-граммы;

Также, описывается алгоритм, использующий коэффициент совпадения подстрок, который показал неплохие результаты и может быть рекомендован к применению в тех случаях, где время работы не является критичным, а возможности создания служебных таблиц с ц-граммами и (или) хеш-ключами отсутствуют. Временная сложность (Т) алгоритма составляет:

к=]

где ш,п - длины сравниваемых строк, к - значение длины подстроки, ] - максимальное значение длины подстроки; Рассматривается программно-технологическая поддержка массива научных мероприятий, основные технологические процессы, связанные с массивом, и приводятся соответствующие функции программного обеспечения.

Во второй главе (Разработка технологии формирования традиционных информационных продуктов) обосновывается и

Т = о(в + А • В • Е~ч)

предлагается новая технология формирования оригинал-макетов в программе MS Word на основе сведений, поступающих из базы данных. Рассмотрена технология, внедренная в ВИНИТИ РАН.

Рассмотрены особенности технологии формирования оригинал-макетов печатных изданий объемом до 300 страниц в программе MS Word, входящей в состав пакета MS Office и являющегося, де-факто, стандартной комплектацией современного компьютера. Рассмотрена технология формирования оригинал-макета «Бюллетеня международных научных съездов, конференций, конгрессов, выставок» - сборника анонсов научных мероприятий (выпускается ВИНИТИ РАН с 1960 года).

Обоснованы преимущества формирования «Бюллетеня международных научных съездов, конференций, конгрессов, выставок» по новой технологии, выразившиеся в упрощении технологии создания оригинал-макета, добавлении новых классификаторов, изменении внутреннего оформления, увеличении объема и, как следствие, повышении качества и стабилизации тиража. Иллюстрация этого приведена далее на рисунке 3.

Приведены результаты разработки технологии формирования оригинал-макетов Информационных листов для включения последних в Реферативный журнал ВИНИТИ РАН. Рассмотрены ее отличия от технологии формирования оригинал-макета «Бюллетеня международных научных съездов, конференций, конгрессов, выставок». Продемонстрирована универсальность разработанных подходов и приведены предложения по дальнейшему расширению области применения этого аспекта настоящей работы.

конгрессов, выставок

Третья глава (Разработка технологии формирования электронных информационных продуктов) посвящена разработке подходов к созданию электронных информационных продуктов.

Рассмотрен опыт применения современных технологий в ВИНИТИ РАН, выразившийся в создании электронного каталога НТЛ, расположенного на сайте ВИНИТИ РАН (http://www.viniti.ru). Обоснована структура и особенности электронного каталога НТЛ. Приведено описание концепции подраздела «Научные мероприятия», обеспечивающего взаимодействие с массивом мероприятий интернет-пользователей. Разработана структура базы данных, являющейся посредником между массивом мероприятий, предназначенным для внутреннего пользования, и его отображением на публичном веб-сайте, и интерфейсные решения с подробным описанием функционала. На

рисунке 4 приведена концепция иерархии раздела, посвященного

научным мероприятиям.

f-®Г Ве

1 П I н

Веб-сервер ВИНИТИ Http://www.viniti.ru

Электронный каталог поступлений ВИНИТИ ННр://са1а1од. viniti.ru

Раздел «Научные мероприятия» Н«р://са1а1од.viniti.ru/ сопГаБр

Массив научных мероприятий Http://catalog.viniti.ru/ conf_mas.asp

Рассылка информации с анонсами Http ://catalog. viniti.ru/ conf_mail.asp

Добавление сведений о мероприятии Н ttp ://cata log .viniti.ru/ conf_add.asp

Рис. 4 Иерархия раздела, посвященного научным мероприятиям

Рассмотрены аспекты взаимодействия администраторов массива мероприятий с интернет-пользователями. Приведено описание технологии рассылки сообщений об анонсированных мероприятиях пользователям посредством электронной почты, а также, технология получения анонсов мероприятий непосредственно от организаторов. Использован опыт ведущего зарубежного информационного портала -ConferenceAlerts.com (http://www.conferencealerts.com).

Исследованы особенности создания оффлайновых электронных продуктов. Сформирована экспериментальная база данных «Научные мероприятия», предназначенная для распространения на электронных носителях. Приведены особенности технологии формирования подобных продуктов и описаны возможности использования имеющегося продукта и возможности создания новых с минимальными затратами.

В заключении изложены основные результаты диссертационной

работы.

Основные результаты работы

1. В ходе выполнения работы был создан единый и четко структурированный массив описаний научных мероприятий. При этом была решена основополагающая задача - разработка структуры информационного объекта - «описание научного мероприятия».

2. Разработан технологический процесс обработки информации о научных мероприятиях. Освоена технология обеспечения жизненного цикла информационных объектов «описание научного мероприятия». Произведена интеграция новой технологии в существующие в ВИНИТИ РАН технологические процессы, в том числе, в процессы формирования информационных продуктов. В процессе разработки технологических процессов была спроектирована и реализована в реляционной СУБД структура массива научных мероприятий. Одним из аспектов технологического процесса обработки информации о научных мероприятиях стала обработка регистрационного массива опубликованных материалов, который содержал в 5 раз больше описаний, чем имелось в тот момент в массиве описаний научных мероприятий. Несовпадение форматов описаний в этих массивах, а также отсутствие формализации в регистрационном массиве потребовало применения алгоритмов нечеткого сравнения строк, специально созданных словарей и оригинальных программных решений. В результате сократился объем работы для пользователей и администраторов системы по обработке данных из регистрационного массива опубликованных материалов.

3. Спроектировано и реализовано программное обеспечение, включающее все инструменты управления для администраторов массива

мероприятий, а также автоматизированные рабочие места для пользователей массива мероприятий. Разработаны и введены в эксплуатацию механизмы формирования оригинал-макетов печатных информационных продуктов и взаимодействия с существующими программными продуктами. Созданное программное обеспечение удовлетворяет запросам пользователей и отвечает всем требованиям, предъявляемым к современным интерфейсам в плане эргономики и стиля.

4. Разработаны механизмы формирования существующих и новых информационных печатных продуктов в автоматизированном режиме. Использование автоматизированной технологии формирования оригинал-макетов печатных продуктов позволило улучшить качественное и количественное наполнение «Бюллетеня международных конференций, конгрессов, съездов, выставок», что положительным образом сказалось на запросах, а также продемонстрировало, что предоставляемая информация и форма ее подачи востребованы подписчиками ВИНИТИ РАН. Созданные с применением новой технологии печатные информационные продукты в форме информационных листов, стали неотъемлемой частью Реферативного журнала ВИНИТИ РАН.

5. Разработана концепция обновленного и усовершенствованного раздела, посвященного научным мероприятиям на сайте ВИНИТИ РАН в рамках электронного каталога HTJI с реализацией функций представления клиентам информации о научных мероприятиях, материалы которых имеются в ВИНИТИ РАН, предоставления подписчикам информации об анонсированных мероприятиях и сбора информации о предстоящих мероприятиях непосредственно от организаторов.

6. Разработана и создана оффлайновая (off-line) версия раздела электронного каталога HTJI посвященного научным мероприятиям для распространения на электронных носителях. Исследована возможность

создания других информационных продуктов, в том числе,

предназначенных для конкретных пользователей.

Список работ, опубликованных по теме диссертации

1. Егоров В. С., Пожидаев А. В., Чернобровская Т. Н. Систематизация и использование сведений о научных мероприятиях в автоматизированной технологии ВИНИТИ. // НТИ. Сер. 1. - 2006. -№4,- С. 17-23.

2. Новые информационные продукты и услуги на основе обработки входного потока HTJI / Батюшко А. А., Егоров В. С., Кириллова О. В., Пожидаев А. В., Федорец О. В., Фишер А. М., Чернобровская Т. Н., Шапкин А. В.; ВИНИТИ РАН - Москва, 2006. - 114 с. - Библиогр.: 25 назв. - Рус. - Деп. в ВИНИТИ 13.04.06 № 474-В2006.

3. Пожидаев А. В. Обработка сведений о научных мероприятиях: инструментальные и технологические средства. Труды 13-й международной конференции Крым 2006. "Библиотеки и информационные ресурсы в современном мире науки, культуры, образования и бизнеса", 10-18 июня 2006 г., г. Судак, Автономная Республика Крым, Украина.

4. Пожидаев А. В. Особенности построения массива сведений о научных мероприятиях. // НТИ. Сер. 2. - 2007. - NolO. - С. 25-31.

5. Пожидаев A.B. Задача обработки неформализованных данных для дальнейшего формирования на их основе информационных продуктов на примере массива сведений о научных мероприятиях. Материалы 7-ой международной конференции НТИ-2007. "Информационное общество, интеллектуальная обработка информации, информационные технологии".

6. Пожидаев A.B. Модель формирования тематической базы данных на примере информации о научных мероприятиях и исследование быстродействия этой модели. // Нелинейный мир. - 2008. - No2. - Т.6 -С. 129-138

Подписано к печати 01.12.2008 г.

Тираж 100 экз. Заказ Объем 1,0 уч.-изд.л

ВИНИТИ РАН 125190, г. Москва, ул. Усиевича, д.20

Оглавление автор диссертации — кандидата технических наук Пожидаев, Алексей Викторович

ВВЕДЕНИЕ

Глава 1. ИНФОРМАЦИОННЫЙ ОБЪЕКТ «НАУЧНОЕ МЕРОПРИЯТИЕ» КАК ОСНОВА ДЛЯ ФУНКЦИОНИРОВАНИЯ БАЗЫ ДАННЫХ

1.1. Формализация описания научного мероприятия

1.2. Структура информационного массива

1.3. Разработка модели и технологических элементов наполнения информационного массива

1.4. Текущее наполнение массива

1.5. Создание единого массива информации о научных мероприятиях

1.6. Программно-технологическая поддержка

1.6.1. Технология поиска научных мероприятий

1.6.2. Технология актуализации системы

1.6.3. Технология формирования новых информационных продуктов с учетом многообразия языков

1.6.4. Технология организации информационных продуктов на основе запросов пользователей

1.6.5. Дополнительные возможности программного обеспечения системы

1.7. Выводы

Глава 2. РАЗРАБОТКА ТЕХНОЛОГИИ ФОРМИРОВАНИЯ ТРАДИЦИОННЫХ ИНФОРМАЦИОННЫХ ПРОДУКТОВ

2.1. Разработка технологии создания оригинал-макетов печатных информационных продуктов

2.2. Результаты внедрения технологии формирования оригинал-макета для «Бюллетеня международных научных съездов, конференций, конгрессов, выставок»

2.3. Технология формирования оригинал-макетов информационных листов для включения в Реферативный журнал ВИНИТИ РАН

2.4. Выводы

Глава 3. РАЗРАБОТКА ТЕХНОЛОГИИ ФОРМИРОВАНИЯ

ЭЛЕКТРОННЫХ ИНФОРМАЦИОННЫХ

ПРОДУКТОВ

3.1. Технология наполнения онлайновых информационных ресурсов

3.2. Технология взаимодействия с пользователями посредством глобальных компьютерных сетей

3.3. Технология создания оффлайновых (off-line) информационных ресурсов на оптических носителях

3.4. Выводы

Введение 2008 год, диссертация по документальной информации, Пожидаев, Алексей Викторович

Работа посвящена расширению спектра электронных и печатных продуктов, выпускаемых ВИНИТИ РАН, в результате разработки модели информационного объекта «описание научного мероприятия», с последующей аккумуляцией максимально возможного количества сведений о прошедших и анонсированных мероприятиях, а также с обработкой, нормализацией и классификацией информации о научных мероприятиях, поступающей в ВИНИТИ РАН.

Актуальность темы

Научные коммуникации являются основой и транспортной средой науки. Без общения, без обмена опытом и мнениями невозможно достижение научных результатов. Если до конца 20-го столетия одной из наиболее эффективных форм научного общения были конференции, симпозиумы и другие научные мероприятия с прямым общением участников, то сейчас наибольшее значение приобретают научные коммуникации с использованием технологий Интернета (электронная почта, электронные журналы, электронные конференции и т.д.). Однако эти технологии не могут полностью заменить непосредственное общение ученых и специалистов, поэтому значение традиционных научных мероприятий остается востребованным [1-4].

Для того, чтобы быть на передовом крае науки, специалист должен владеть информацией о проводимых мероприятиях по профилю его научной деятельности. Учитывая то, что по очень грубым оценкам в мире ежегодно проводится свыше 5 тысяч научных мероприятий (фундаментальные и технические науки), выбор и самостоятельное формирование подобного пользовательского списка представляется достаточно трудоемким процессом. До появления Интернета единственным источником сводных, систематизированных сведений о научных мероприятиях были печатные издания, наиболее ценными среди них - сводные обобщающие материалы. Практически все информационные центры издают или издавали подобные информационные материалы, а научные общества и организации рассылали списки планируемых мероприятий. В ВИНИТИ РАН таким изданием является «Бюллетень международных научных съездов, конференций, конгрессов, выставок», издающийся с 1960 г. Сейчас автоматизированные и телекоммуникационные технологии активно вытесняют печатные издания, которые становятся производным элементом от самостоятельно развивающихся электронных технологий, основанных на поддержании банков данных. Банки данных становятся основным информационным продуктом, при этом пользователь получает принципиально новые возможности: он может активно работать со всем ретроспективным объемом данных, иметь доступ к оперативно подготавливаемой информации.

Принимая во внимание вышеизложенное, актуальность создания системы была продиктована не только научно-методическими соображениями, но и возможной коммерческой эффективностью [5-7].

Степень разработанности проблемы

Проведенный в течение 2005-2007 гг. анализ показал, что вопросами сбора и систематизации данных о проводимых научных мероприятиях занимается достаточно большое количество организаций, причем большинство из них предоставляет через Интернет бесплатный доступ к созданным ресурсам [8]. Примером таких агрегаторов в России являются Министерство образования и науки Российской Федерации (Федеральное Агентство по Науке и Инновациям) http://www.fasi.gov.ru и Информационная система "Наука и Инновации" http://www.rsci.ru. Среди зарубежных источников можно упомянуть сайты http://www.allconferences.com, http://www.eventseye.com/, http://atlas-conferences.com/, сайты крупнейших информационных центров (ВИНИТИ РАН, ИНИОН РАН, British Library, The Library of Congress, Chemical Abstracts Service, INIST - Institute for Scientific and Technical Information - France).

Многие поисковые машины имеют разделы, связанные с информацией по конференциям. Например, самая крупная поисковая система Google имеет специализированный раздел http://www.google.com/Top/Science/Conferences/.

Однако более детальный анализ web-сайтов (порталов) со списками планируемых мероприятий показал, что практически каждый из них охватывает сравнительно небольшой объем информации (в большинстве случаев случайной или очень узкой тематики), информация плохо структурирована, пользовательский интерфейс ориентирован на англоязычного пользователя.

К сожалению, в открытом доступе практически отсутствует информация о принципах наполнения и функционирования подобных ресурсов. Дальнейшее рассмотрение технологий использования информации о научных мероприятиях проводилось на примере ВИНИТИ РАН.

До 2005 г. информация о научных мероприятиях, поступавшая в ВИНИТИ РАН, аккумулировалась в регистрационном массиве опубликованных материалов, т.к. информация о мероприятиях собиралась на основе выпущенных по их итогам сериальных изданий и (или) изданий книжного типа.

В то время было исследовано три варианта использования информации из регистрационного массива: наполнение электронного каталога HTJI, создание указателя прошедших научных мероприятий, информация о которых находится в фондах ВИНИТИ РАН, и наполнение «Бюллетеня научных съездов, конференций, конгрессов, выставок».

Однако информация в регистрационном массиве опубликованных материалов отличалась отсутствием формализации и отсутствием контроля на дублирующиеся записи, причем дублирование возможно как физическое (копии), так и смысловое (если на источниках указано было разное наименование конференции), что затрудняло ее использование.

Поэтому в ВИНИТИ РАН началась работа по созданию массива данных по научным мероприятиям, информация о которых находится в сфере внимания Института - ведущего информационного центра страны в области научно-технической информации. Важным фактором необходимости создания такого продукта является формирование механизма для обеспечения наиболее полных и ценных поступлений во входной поток Института материалов прошедших конференций - объемной и важной его составляющей. Следует отметить, что в большинстве случаев; материалы конференций - бесплатный информационный продукт, который часто становится решающим фактором при комплектовании входного потока научно-технической литературы (НТЛ). Наличие оперативно под держиваемого массива планируемых научных мероприятий позволит автоматизировать процессы взаимодействия с оргкомитетами для получения соответствующих материалов. Вкачестве примера важности научных мероприятий можно отметить то, что Банк данных ВИНИТИ РАН включает до 20 % статей, взятых из материалов научных мероприятий.

На пути к созданию подобного массива приходится сталкиваться с некоторыми трудностями, как то: отсутствие надежных каналов получения информации (зачастую даже организаторы мероприятия; до последнего момента не имеют точной информации о дате и месте его проведения), разные стили оформления; материалов разными организациями и объективные трудности, связанные с переводом не русскоязычной информации.

Дополнительную сложность создает разнообразие ситуаций, в которых может проходить научное мероприятие. Если еще 30 лет тому назад такие случаи можно было ограничить заочными конференциями, то уже 10 лет назад возникло понятие «Мероприятие, проводимое в сети Internet». В самом деле, развитие компьютерной техники и растущая глобализация позволяют проводить мероприятия, которые если не по содержанию, то, по крайней мере, по технологии проведения отличается от традиционных мероприятий 20-го века.

Такие мероприятия, например; не имеют географического места проведения; они могут не иметь четких сроков проведения, материалы таких мероприятий могут не публиковаться в виде бумажных изданий. Оргкомитет таких мероприятий тоже достаточно расплывчат, ведь для организации электронной конференции необходимы, по сути, только участники и кто-то* кто возьмет на себя роль "организатора" — предоставит серверные мощности и обеспечит связь между участниками и рассылку оповещений.

Учитывая тенденции развития современного общества в целом и науки в частности, такие мероприятия будут проводиться все чаще и будут постепенно вытеснять традиционные конференции, где участникам часто приходилось ехать в другую страну, а организаторам испытывать проблемы с размещением участников и регламентом мероприятия.

В ВИНИТИ РАН задачами комплектования, учета поступающих экземпляров, регистрации выпусков изданий, аналитической обработки выпусков и тематической разметки выделенных документов занимается Автоматизированная Система Комплектования и Регистрации (АСКР) [9,10].

Одним из объектов, обрабатываемых АСКР, являются сведения об анонсированных и прошедших научных мероприятиях, по результатам которых были выпущены публикации, отчеты и сборники трудов [11-13].

Количество мероприятий, сведения о которых после обработки входного потока НТЛ в Автоматизированной Системе Комплектования и Регистрации накапливаются в ВИНИТИ РАН, составляет примерно 400 единиц в месяц. Однако эта информация, по сути, ранее никак не использовалась. Информация, поступавшая в отдел обработки входного потока НТЛ, аккумулировалась в регистрационном массиве опубликованных материалов, т.к. информация о мероприятиях собиралась на основе выпущенных по их итогам сериальных изданий (СИ) и (или) изданий книжного типа (ИКТ) [14].

Было исследовано два варианта использования информации из регистрационного массива - наполнение электронного каталога НТЛ и создание Указателя прошедших научных мероприятий, информация о которых находится в фондах хранения ВИНИТИ РАН, а также, участие совместно с Международным отделом ВИНИТИ РАН в формировании «Бюллетеня международных научных съездов, конференций, конгрессов, выставок» [15-17].

Наполнение раздела «Научные мероприятия» в электронном каталоге НТЛ (рис.1) осуществлялась до недавнего времени из регистрационного мас

ПРОФИЛЬ

Научные мероприятия

Шжаоовык г«хфос

Ншпаа: "BctpocLHHijn»r

Гед '2000"

ВВВВ

13 3 4

Всеросайавик юбилейный амюд^и марииейдераж . Moot» - 10-15 тф. 2000/ Сом маркшейдера! России (СМР)

Всеросататй нжучно-г^жгичеогш семинар "Сакремемап хозмохаюст холгерагаюго глпнкгорхфсжамияГ . С амег-Петербург - 25-39 мах. 2000 j^j] Всероссийский форум "Икгеллилуалыаи ресурсы pentose« Россия к* рубеже пктелтайГ . Ярославль -11-13 адф. 2000/Адцциичрчют Ярославской области Всероссийский фору» "Интеллектуалы«« ресурсы регионе« России и» рубеже тысячелетий" . Ярославль -11-13 тр., 2000/ Алминистрадох Ярославской об ласти

Всеросслмашк форум "Интеллектуальные ресурсы рчшиш Роса« та рубеже тысячелетий" . фоспга -11-13 «ф. 2000

Н=| Всероссийский форум 'татлпекгуальньи ресурсы регионов Росаи та рубеже тысячелетий? . Яр ос лил! -11-13 «ф., 2000

J ] 1 Первый Всеросаасасик еэтлпожум "Стратегическое плаюфсеани» иразжшие тфевгфташй" . Моста - 11-12 оф, 2000/ Цекгралышй 3—IG—Iн—стМО» инстуг Российской «идемии кагук

Всероссийский семинар "Гаплпхкые этткш и энергсгустчкожки та их о скаке" . Обитое. Калуж. обл. - 27-29 сект, 2000/ Госуяфспашнй научный хкир Росоиопж Федерации -♦игико-энерггаяеалм институт им. АН. Лейпунского

3 Всероссийский студенческий семинар "Проблемы угфажпених" . Мосла ■ 2000/ Госупфстхенмж уникерасгет управ ленихим С. Орджоникидзе 4 Всеросайаой постоям» действующи научный семинар "Самюортанкзацих устойчиккс целосшостей ж г^офопе и обиаестхе" . Томас - 13-15 «ф . 2000/ Шсоауг оптического мониторинга Сибцгагаго игщеценм Росайоий дядеиии мук

QQQB

1 2 I i

Рис. 1. Раздел «Научные мероприятия» в электронном каталоге HTJ1

3 Всероссийский форум "Интеллектуальные ресурсы регионов России на рубеже тысячелетий" Ярославль - 11-13 апр. 2000/ Администрация Ярославской области

4 [==| Всероссийский форум "Интеллектуальные ресурсы регионов России на рубеже тысячелетий"

Ярославль - 11-13 апр., 2000/Администрация Ярославской области

5 [==| Всероссийский форум "Интеллектуальные ресурсы регионов России на рубеже тысячелетий"

Ярославль - 11-13 апр., 2000 в Всероссийский форум "Интеллектуальные ресурсы регионов России на рубеже тысячелетий"

Ярославль - 11-13 апр. 2000

Рис. 2. Дублирование записей в электронном каталоге НТЛ

741 [=] International Joint Conference on Neural Networks, Seattle, Wash., July 8-12. 1991

742 [==] International Conference

743 International Conference

744 [=1] Sth CERI International Oil and Gas Markets Conference . Calgary - 1989

745 [i=lfj 10th International Conference on Pattern Recognition . Atlantic City - 900616-900621

Рис. 3. Отсутствие формализации дат проведения в электронном каталоге HTJI Настоящее состояние электронного каталога HTJ1 представлено в третьей главе диссертации.

Технология формирования «Указателя прошедших мероприятий» позволила формировать экспериментальный экземпляр (рис.4), который показал необходимость сокращения дублирования записей в регистрационном массиве и их нормализацию. пкгиЯскда «мшк-ш-сгао игомышлгшюсти нлукн

СЛЛСЧИЯ IIA УК * т*хиояог*й rocuMtKofl «СЛГГАИМВ J

М-ГГОССИЙСКИЙ ИНСТИТУТ НАУЧНОМ И ТЕХННЧКСКОЙ ИНФОРМАЦИИ

Указатель научных мероприятий экспериментальный выпуск) гонг, n» о

Мосхы 2002

Рис. 4. Экспериментальный выпуск «Указателя научных мероприятий»

Одновременно с этим, специальный отдел ВИНИТИ РАН осуществлял наполнение «Бюллетеня международных научных съездов, конференций, конгрессов, выставок» на основании сборников анонсов, поступающих в ВИНИТИ РАН. Верстка «Бюллетеня.» осуществлялась в текстовом редакторе MS Word (рис.5), была затратной по временным ресурсам и не позволяла создавать дополнительные поисковые средства, даже простейшие указатели.

ДАННЫЕ НА 2004 ГОД

Время проведения Название мероприятия и место проведения Организатор

Октябрь Италия, Рим Симп.по ядерной физике и конф. по медицинскому изображению (Nuclear Science Symp. and Medical Imaging Conf. (NSS/MIC)) Alberto Del Guerra, INFN, e-mail: delguerraí5)pi infh.it. http://www.nss-mic. org/

Октябрь Россия, Белгород Межд научно-техническая конф. "Современные технологии обработки информации" Белгородская гос. технологическая академия строительных материалов, т. (0722)25 9821, ф.(0722) 5 7139, e-mail: taga 1978(®mailru

Октябрь Россия, Москва Межд. или всероссийская конф. "Роль внутреннего ядра в истории Земли" Объединенный ин-т физики Земли РАН, т. (095) 252 0726, ф. (095) 255 6040

Октябрь Россия, Волгоград Межд. нижневолжская археологическая конф. ВолГУ,ф-т истории и международных отношений, НИИ археологии Нижнего Поволжья при ВолГУ, т. (8442) 40 5522,43 2025, ф. (8442) 43 8124, e-mail: hist@volsu.ru, archaeolíSlvolsu ru

Октябрь Россия, Ленинск-Кузнецкий П всероссийская научно-практическая конф. "Интенсивна я Федеральное гос. Лечебно-профшхактичекое учреждение "Научно-клинический центр охраны здоровья шахтеров", 652509, г Ленинск-КЧсттршгий Мштпшйпн N7 т

Рис. 5. Пример верстки "старого" варианта «Бюллетеня.»

К середине 2004 года сложилась следующая ситуация - объем анонсов и сведений о прошедших мероприятиях, обрабатываемых в Автоматизированной системе комплектования и регистрации входного потока научно-технической литературы (АСКР), постоянно возрастал, одновременно с этим, неуклонно снижалось качество «Бюллетеня международных научных съездов, конференций, конгрессов, выставок», что влекло за собой сокращение заказов на «Бюллетень.».

Это активизировало работы по созданию автоматизированной системы обработки информации о научных мероприятиях АСКР, которая позволила бы улучшить качество информационных продуктов ВИНИТИ РАН, а также могла бы в дальнейшем расширить спектр продуктов и услуг, оказываемых

ВИНИТИ РАН (рассылка анонсов мероприятий подписчикам по электронной почте, создание глобальной базы данных по мероприятиям, проходящим в России и за рубежом, публикация нового варианта «Указателя прошедших мероприятий» и т.п.) [8, 18].

Цель работы

Цель работы заключается в разработке модели информационного объекта "описание научного мероприятия" для обработки, нормализации и классификации информации о научных мероприятиях на примере ВИНИТИ РАН для расширения спектра информационных продуктов.

Задачи работы

Задачами, решаемыми в данной работе, являлись:

• создание единого и четко структурированного массива описаний научных мероприятий;

• создание механизмов формирования существующих и новых информационных продуктов в автоматизированном режиме;

• разработка технологического процесса обработки информации о научных мероприятиях, технологии обеспечения жизненного цикла информационных объектов «описание научного мероприятия» и интеграция новой технологии в существующие технологические процессы;

• создание программного обеспечения, призванного обеспечить: необходимые инструменты управления для администраторов массива мероприятий; автоматизированные рабочие места для пользователей массива мероприятий; механизмы формирования оригинал-макетов печатных информационных продуктов и взаимодействие с существующими программными продуктами;

• разработка концепции раздела, посвященного научным мероприятиям на сайте ВИНИТИ РАН в рамках электронного каталога НТЛ с реализацией функций представления клиентам информации о научных мероприятиях,

12 на примере ВИНИТИ РАН, предоставления подписчикам информации об анонсированных мероприятиях и сбора информации о предстоящих мероприятиях непосредственно от организаторов; • разработка и создание оффлайновой версии раздела электронного каталога НТЛ, посвященного научным мероприятиям, для распространения на электронных носителях.

Объект исследования

В качестве объекта исследования рассматривались описания научных конференций, симпозиумов, семинаров, выставок и т.п., проводившихся или планирующихся к проведению по всему миру, по любой тематике и имеющих в качестве рабочего языка основные европейские языки.

Методы исследования

Методологической основой данной работы является системный анализ. Для теоретических исследований* применялись методы теории вероятностей, математической статистики, теории информации.

Научная новизна работы

Впервые сформулирована концепция классификации описаний научных мероприятий по схеме «разовое/серийное», разделения описаний совместно проходящих мероприятий, создания «обобщенных монотематических» и «обобщенных политематических» описаний, объединяющих серии регулярных описаний, что позволяет обнаруживать «лакуны» - отсутствующие в базе данных описания мероприятий и сохранять цепочку мероприятий, даже в том случае, если мероприятие за свою историю неоднократно кардинально меняло название.

Впервые в ВИНИТИ РАН реализована автоматизированная система обработки сведений о российских и зарубежных научных мероприятиях, использующая расширенные формализованные описания научных мероприятий, интегрированная в существующие процессы обработки информации и имеющая большое практическое значение для информирования научного сообщества.

Разработан и внедрен внутри ВИНИТИ РАН внутрифирменный стандарт на оформление описания научного мероприятия в информационных продуктах и при хранении в базах данных.

Разработана технология полностью автоматического создания оригинал-макетов печатных продуктов в файлах MS Word с использованием сведений, получаемых из базы данных, что позволяет отказаться от использования в большинстве задач дорогостоящих и сложных издательских систем и снижает требования к квалификации обслуживающего персонала.

Разработаны оригинальные подходы к обработке информации о научных мероприятиях в процессе создания программного обеспечения - использование нечеткого сравнения строк при поиске дублирующихся записей; созданы алгоритмы, использующие специально созданные словари, для автоматического проставления классификаторов описаниям мероприятий в автоматическом режиме; использование цвето-стилистической разметки для ускоренной обработки текстовой информации о мероприятии.

Доказана возможность формирования массива сведений, относящихся к определенной области человеческих знаний, путем обработки и использования в технологических процессах и в создании готовых продуктов мультимедийной информации на примере информации о научных мероприятиях.

Обоснованность и достоверность результатов работы

Обоснованность и достоверность результатов диссертационной работы подтверждаются успешным практическим использованием созданной базы данных по научным мероприятиям в технологических процессах ВИНИТИ РАН, а также: результатами анализа существующих отечественных и зарубежных печатных сборников и электронных информационных ресурсов, содержащих анонсы научных мероприятий; применением в функциональных модулях технологии программных средств, основанных на международных стандартах; увеличением запрашиваемости основного издания ВИНИТИ РАН, посвященного анонсам научных мероприятий — «Бюллетеня международных научных съездов, конференций, конгрессов, выставок».

Практическая значимость работы

Разработанная автоматизированная система обработки информации о российских и зарубежных научных мероприятиях имеет большое практическое значение в деятельности ВИНИТИ РАН - крупнейшего информационного центра, обеспечивающего с 1952 г. российское и мировое сообщество научно-технической информацией по проблемам точных, естественных и технических наук, и координирующего межгосударственный обмен научно-технической информацией со странами СНГ.

В процессе разработки технологии обработки информации и создания программного обеспечения были реализованы оригинальные алгоритмы обработки и нормализации произвольной информации, нашедшие применение и в других программных продуктах, разрабатываемых в ВИНИТИ РАН.

В результате создания единого массива описаний научных мероприятий сформирована база данных о прошедших научных мероприятиях, которая имеет важное значение для профильных специалистов, комплектования библиотек и информационных центров.

При создании автоматизированной системы были сформированы словари понятий и словари с переводами этих понятий на основные языки, что имеет важность для мирового научного сообщества.

В результате перевода технологии формирования оригинал-макета «Бюллетеня международных научных съездов, конференций, конгрессов, выставок» на использование автоматизированной технологии формирования оригинал-макета и увеличения количества регистрируемых анонсов, удалось вернуть интерес подписчиков к изданию и улучшить ситуацию с тиражами.

Создание раздела посвященного научным мероприятиям на сайте свидетельствует о внимании к современным тенденциям в области информации и обеспечивает оперативный доступ для посетителей сайта к интересующей их информации. Формируемый на основе той же информации CD-ROM с оффлайновой версией раздела сайта ВИНИТИ РАН, посвященного научным мероприятиям, является новым и перспективным информационным продуктом ВИНИТИ РАН.

Использование Информационных листов, формируемых в автоматизированном режиме из анонсов мероприятий, относящихся к определенным тематикам, в Реферативном журнале ВИНИТИ РАН, позволило улучшить один из основных продуктов ВИНИТИ РАН, имеющего мировую известность.

Реализация результатов работы

Разработанная в рамках диссертационной работы технология наполнения базы данных по научным мероприятиям и формирования на ее основе информационных продуктов успешно используется в ВИНИТИ РАН.

Области применения результатов

Результаты работы могут быть использованы в самых разнообразных областях человеческой деятельности, связанных с обработкой информации и, в частности, обработкой неструктурированной информации.

Также, результаты работы имеют практическую ценность с точки зрения практической реализации алгоритмов сбора, обработки, корректировки информации и формирования на ее основе различных информационных продуктов.

После адаптации, система может быть использована для создания указателя выставок, системы анализа информации, рассеянной в Интернете, на интересующую заказчика тему, подсистемы учета выступлений на конференциях молодых ученых и формировании индекса цитирования на основе материалов конференций, а также способна давать прогнозы будущего развития различных областей науки в среднесрочной перспективе, основываясь на тенденциях в тематиках проводимых по всему миру научных мероприятий.

Апробация работы

Материалы диссертации докладывались на следующих конференциях:

13-я Международная конференция «Крым 2006. "Библиотеки и информационные ресурсы в современном мире науки, культуры, образования и бизнеса"» (Украина, г. Судак, 2006);

7-я Международная конференция «Научно-техническая информация - 2007» Информационное общество: инновации в информационном обслуживании (Россия, г. Москва, 2007);

10-я Юбилейная международная научно-практическая конференция "SCIENCE ONLINE: электронные информационные ресурсы для науки и образования" (Египет, г. Шарм эль-Шейх, 2007).

Положения, выносимые на защиту

1. Разработка структуры информационного объекта "описание научного мероприятия";

2. Методика создания и поддерживания единого массива описаний научных мероприятий с использованием методов обработки частично формализованной информации;

3. Технология обработки и использования информации об отечественных и зарубежных научных мероприятиях для создания различных информационных продуктов на основе единого массива.

Публикации

Основные результаты изложены в 6 опубликованных работах, список которых приводится в конце диссертационной работы.

Структура и объем диссертации

Диссертация состоит из введения, трех глав, заключения, списка цитируемой литературы, включающего 95 наименований, и 1 приложения. Работа изложена на 151 странице машинописного текста, иллюстрированного 55 рисунками и 10 таблицами.

Заключение диссертация на тему "Научное мероприятие как объект информационной деятельности: базы данных и информационные продукты"

3.4. Выводы

Разработана концепция модернизации раздела «Научные мероприятия», являющегося элементом электронного каталога НТЛ. Концепция также включает технологию рассылки информации об анонсах научных мероприятий на адреса электронной почты для зарегистрированных пользователей. Другой особенностью концепции раздела «Научные мероприятия» является описание технологии получения и обработки информации о научных мероприятиях от интернет-пользователей.

Отдельно рассмотрены вопросы усовершенствования интерфейса раздела «Научные мероприятия» в сторону большей эргономичности и эффективности.

Создан новый информационный продукт База данных «Научные мероприятия», являющийся интерактивным и расширенным вариантом «Бюллетеня международных научных съездов, конференций, конгрессов, выставок» и сокращенным, оффлайновым вариантом раздела «Научные мероприятия» электронного каталога НТЛ.

Разработана технология наполнения Базы данных «Научные мероприятия».

Исследована возможность создания новых информационных продуктов с использованием оболочки Базы данных «Научные мероприятия».

ЗАКЛЮЧЕНИЕ

В ходе выполнения работы был создан единый и четко структурированный массив описаний научных мероприятий. При этом была решена основополагающая задача - разработка структуры информационного объекта «описание научного мероприятия».

Разработан технологический процесс обработки информации о научных мероприятиях. Освоена технология обеспечения жизненного цикла информационных объектов «описание научного мероприятия». Произведена интеграция новой технологии в существующие в ВИНИТИ РАН технологические процессы, в том числе, в процессы формирования информационных продуктов. В процессе разработки технологических процессов была спроектирована и реализована в реляционной СУБД структура массива научных мероприятий. Одним из аспектов технологического процесса обработки информации о научных мероприятиях стала обработка регистрационного массива опубликованных материалов, который содержал в 5 раз больше описаний, чем имелось в тот момент в массиве описаний научных мероприятий. Значительное несовпадение форматов описаний в этих массивах, а также отсутствия формализации в регистрационном массиве потребовало применения алгоритмов нечеткого сравнения строк, специально созданных словарей и оригинальных программных решений. В результате значительно сократился объем работы для пользователей и администраторов системы по обработке данных из регистрационного массива опубликованных материалов.

Спроектировано и реализовано программное обеспечение, обеспечивающее все необходимые инструменты управления для администраторов массива мероприятий и автоматизированные рабочие места для пользователей массива мероприятий. Разработаны и введены в эксплуатацию механизмы формирования. оригинал-макетов печатных информационных продуктов и взаимодействия с существующими программными продуктами. Созданное программное обеспечение удовлетворяет запросам пользователей и отвечает всем требованиям, предъявляемым к современным интерфейсам в плане эргономики и стиля. В настоящий момент в эксплуатации находится уже 4-я версия основного программного продукта - программы PdpCon (The Program for Data Proceeding about scientific Conferences - Программа для обработки данных о научных мероприятиях).

Разработаны механизмы формирования существующих и новых информационных печатных продуктов в автоматизированном режиме. В частности, использование автоматизированной технологии формирования оригинал-макетов печатных продуктов позволило улучшить качественное и количественное наполнение «Бюллетеня международных конференций, конгрессов, съездов, выставок», что положительным образом сказалось на его тиражах, а также продемонстрировало, что предоставляемая информация и форма ее подачи востребованы подписчиками ВИНИТИ РАН. Созданною с применением новой технологии печатные информационные продукты в форме информационных листов, стали неотъемлемой частью Реферативного журнала ВИНИТИ РАН.

Разработана концепция обновленного и усовершенствованного раздела, посвященного научным мероприятиям на сайте ВИНИТИ РАН в рамках электронного каталога HTJI с реализацией функций представления клиентам информации о научных мероприятиях, материалы которых имеются в ВИНИТИ РАН, предоставления подписчикам информации об анонсированных мероприятиях и сбора информации о предстоящих мероприятиях непосредственно от организаторов.

Разработана и создана оффлайновая (off-line) версия раздела электронного каталога HTJI посвященного научным мероприятиям для распространения на оптических носителях. Исследована возможность создания других информационных продуктов, в том числе, предназначенных для конкретных пользователей.

Библиография Пожидаев, Алексей Викторович, диссертация по теме Информационные системы и процессы, правовые аспекты информатики

1. Garvey W.D. Communication: The essence of science. — Oxford a.o.: Per-gamon Press, 1979. XII, 332 p.

2. Филинов E.H. Проблемы информатики и информационные технологии // Системы и средства информатики. Вып. 10. - М.: Наука, 2000.

3. Урсул А.Д. Проблемы информации в современной науке. М.: Наука, 1975.-287 с.

4. Михайлов А.И., Черный А.И., Гиляревский P.C. Научные коммуникации и информатика М.: Наука, 1976. - 435 с.

5. Михайлов А.И., Черный А.И., Гиляревский P.C. Основы информатики -М.: Наука, 1968. 756 с.

6. Гиляревский P.C., Залаев Г.З., Родионов И.И., Цветкова В.А. Современная информатика: наука, технология, деятельность М.: ВИНИТИ, 1998. - 220 с.

7. Арский Ю.М., Гиляревский P.C., Туров И.С., Черный А.И. Инфосфера: Информационные структуры, системы и процессы в науке и обществе. — М.: ВИНИТИ,,1996. -489 с.

8. Егоров B.C., Пожидаев A.B., Чернобровская Т.Н. Систематизация и использование сведений о научных мероприятиях в автоматизированной технологии ВИНИТИ. // НТИ. Сер. 1. 2006. - № 4.-С. 17-23.

9. Шапкин A.B. Автоматизированная система комплектования и регистрации входного потока ВИНИТИ. 4.1 // НТИ.Сер. 1.- 2005.- № 3.- С.8-19.

10. Шапкин A.B. Автоматизированная система комплектования и регистрации входного потока ВИНИТИ. 4.2 // НТИ.Сер. 1.- 2005.- № 4.- С. 16-31.

11. Дивильковская Т.Ю., Козачук М.В., Чернобровская Т.Н., Шапкин A.B. Регистрация изданий книжного типа // НТИ-99. Интеграция, информационные технологии, телекоммуникации. Материалы международной конференции. М.: ВИНИТИ, 1999. - С.217-220

12. Бюллетень международных научных съездов, конференций, конгрессов, выставок. М.: ВИНИТИ, 2005.

13. Отчет о НИОКР по заказу Дирекции ВИНИТИ по теме "Обеспечение средств регистрации и включения в продукты ВИНИТИ документов из изданий, поступающих на вход в электронной форме". М.: ВИНИТИ, 2001 г. - Per. № 01.200.2 02666, инв. № 02.200.2 01477.

14. Шемакин Ю.И. Введение в информатику. М.: Финансы и статистика, 1985. - 190 с

15. Учебник по информатике, веб-сайт Сибирского государственного университета путей сообщенияhttp://www.ssti.m/kpi/informatika/Content/biblio/bl/index.html

16. Гиляревский P.C. Основы информатики: Курс лекций. Mí: Экзамен, 2003.-319 с.

17. Черняк JI. Заслон на пути грязных данных // Открытые системы. 2002. - № 1.

18. Перечень международных, всероссийских и региональных научных и научно-технических совещаний, конференций, симпозиумов, съездов, семинаров- и школ в области естественных и общественных наук на 2004-2005 годы. М.: Наука, Издательство НПО РАН, 2004.

19. Сводные данные (план) международных научно-технических мероприятий на 2004-2006 гг. (в 2 томах). Выпуск 3. М., Минпромнаука, 2004.

20. Meetings on Atomic Energy. International Atomic Energy Agency, Vienna, 2005.

21. ScienceDirect world's largest electronic collection of science, technology and medicine füll text and bibliographic information, http://www.sciencedirect.com

22. Conference Alerts Academic Conferences Worldwide, http://www.conferencealeits.com/

23. Нижегородский Государственный Университет. http://www^n.ru/rus/konf/main.htm

24. Кафедра биофизики Биологического факультета МГУ им. М.В.Ломоносова. http://www.biophys.msu.ru/conferen/

25. Федеральное Агентство по Науке и Инновациям, http://www.fasi.gov.ru/

26. Библиотека Конгресса США. http://www.loc.gov/

27. Вьейра P. SQL Server 2000. Программирование в 2 ч./ Р.Вьейра: Часть I; Пер. с англ.; Под ред. С.М.Молявко. М.: БИНОМ. Лаборатория знаний, 2004.-735 с.

28. Вьейра P. SQL Server 2000. Программирование в 2 ч./ Р.Вьейра: Часть II; Пер. с англ.; Под ред. С.М.Молявко. М.: БРТНОМ. Лаборатория знаний, 2004. - 807 с.

29. Проектирование и реализация баз данных Microsoft SQL Server 2000. Учебный курс MCAD/MSCE,MCDBA / Пер. с англ. 2-е изд., испр. - М.: Издательско-торговый дом «Русская редакция», 2003. - 512 с.

30. Дейт К. Введение в системы баз данных М.: Издательский дом «Вильяме», 2006. -1328 с.

31. Атре Ш. Структурный подход к организации баз данных / Пер. с англ. -М.: Финансы и статистика. 1983. — 317 с.

32. Gale Directory of Databases/ Volume 1: Online databases January 1997. -New York: Gale Research, 1997. 1440 p.

33. INTEGRATION DEFINITION FOR FUNCTION MODELING (IDEF0). Draft Federal Information Processing Standards Publication 183, 1993, December 2. www.idef.com

34. P50.1.028-2001. Методология функционального моделирования. M.: Госстандарт России, 2000. www.cals.ru

35. Международный стандарт ИСО 9000. Системы менеджмента качества. Основные положения и словарь. 2-е изд. 2000-12-15. ISO 2000.

36. Международный стандарт ИСО 9001. Системы менеджмента качества. Требования. 3-е изд. 2000-12-15. ISO 2000.

37. Международный стандарт ИСО 9004. Системы менеджмента качества. Руководство по улучшению деятельности. 2-е изд. ISO 2000.

38. ISO 9000 Introduction and Support Package: Guidelines on the Process Approach to quality management systems. ISO/ТС 176/SC 2/N 544R. 17 May, 2001.

39. ISO 9000 Introduction and Support Package: Guidance on the Documentation Requirements of ISO 9001:2000. ISO/ТС 176/SC 2/N 544R. 13 March, 2001.

40. Давид Марка, Клемент МакГоуэн. Методология структурного анализа и проектирования. Пер . с англ . М .: МетаТехнология, 1993. 240 с .

41. Государственный рубрикатор научно-технической информации. /Гл. ред. Арский Ю.М. Изд. 5-е. - М.: ВИНИТИ, 2001.-391 с.

42. Пожидаев А.В: Особенности построения массива сведений о научных : мероприятиях. // НТИ. Сер. 2. 2007. - № 10. - С. 25-31.

43. Пожидаев А.В. Задача обработки неформализованных данных для дальнейшего формирования на их основе информационных продуктов на примере

44. J массива сведений о научных мероприятиях. Материалы 7-ой международной конференции НТИ-2007. "Информационное общество, интеллектуальная обработка информации, информационные технологии".

45. Wagner R.A., Fischer M.J. The string-to-string correction problem // Journal of the ACM, Vol.21, № 1, p.l68-73, January 1974.

46. Ukkonen E. On approximate string matching, Proceedings of the International Conference on Foundations of Computer Science, Lecture Notes in Computer Science, 1983, Vol.158, p.487-95, Springer-Verlag, Berlin

47. Salton G. Automatic information retrieval, IEEE Computer, Vol.13, p.41-55. September 1980

48. Ukkonen E. Approximate string matching with q-Grams and maximal matches //Theoretical Computer Science.- 1992.- Vol.92, № 1.- P.191-211.

49. Федорец O.B. Поиск по сходству в реляционной базе данных: статистический подход к хешированию библиографических записей. // НТИ. Сер. 2.-2005.-№ 1.-С.9-21.

50. Кнут Дональд Э. Искусство программирования. Т. 3. Сортировка и поиск. 2-е изд.: Пер. с англ.: Уч. пос. — М.: Издательский дом «Вильяме», 2000. - 832 с.

51. Baeza-Yates R.A. Searching subsequences, Theoretical Computer Science, 1991, Vol.78, № 2, p.363-76.

52. Gonnet G.H., Baeza-Yates R. Text algorithms. Handbook of Algorithms and Data Structures in Pascal and C, 2nd edition, Addison-Wesley, Wokingham UK, 1991, Chapter 7 (p.251-88).

53. Hume A., Sunday D. Fast string searching, Software Practice and Experience, Vol.21, № и, p.1221-48, November 1991.

54. Hunt J.W., Szymanski T.G. A fast algorithm for computing longest common subsequences, Communications of the ACM, Vol.20, № 5, p.350-3, May 1977.

55. Landau G.M., Vishkin U. Efficient string matching in the presence of errors, Proceedings of the 26th IEEE Symposium on the Foundations of Computer Science, 1985, p. 126-36.

56. Landau G.M., Vishkin U. Fast string matching with k differences, Journal of Computer and System Sciences, 1988, Vol.37, № 1, p.63-78.

57. Schensted C. Largest increasing and decreasing subsequences, Canadian Journal of Mathematics, 1961, Vol.13, p.179-91.

58. Sunday D.M. A very fast substring search algorithm, Communications of the ACM, Vol.33, № 8, p. 132-42, August 1990.

59. Yamada Hi, Hirata M., Nagai H., Takahashi K. A high-speed string-search engine, IEEE Journal of Solid-State Circuits, Vol. SC-22, № 5, p.829-34, October 1987.

60. Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов, Докл. АН СССР, 163,4, 1965, 845-848.

61. Алфавит реферативного журнала ВИНИТИ: Нормативно-техническое предписание НТИ 15-99. М.: ВИНИТИ, 1999.

62. Представление элементов данных во внутрисистемном формате ВИНИТИ: Нормативно-техническое предписание НТП 10-2004. М.: ВИНИТИ, 2004.

63. Система Unicode http://www.unicode.org/

64. Родионов И.И., Гиляревский P.C., Цветкова В.А., Залаев F.3. Рынок информационных продуктов и услуг. Мл МК-Периодика, 2002. - 549 с.

65. Отчет о НИОКР по заказу Дирекции ВИНИТИ по теме "Формирование новых информационных услуг на основе Каталога поступлений НТЛ за 2002 г.". М., ВИНИТИ, 2002 г. - Per. № 01.20.03 02549, инв. № 02.20.03 01631.-19 с.

66. Отчет о НИОКР по заказу Дирекции ВИНИТИ по теме "Формирование новых информационных услуг на основе обработки входного потока НТЛ" за 2003 год. М., ВИНИТИ, 2003 г. - Per. № 01.0.40 000360, инв. № 02.2.00 405105 - 32 с.

67. Арский Ю.М., Леонтьева Т.М., Шогин А.Н. WWW сервер ВИНИТИ -задачи и направления развития. НТИ. Сер. 1 М., ВИНИТИ 1998 г., № 1, с.16-19.

68. Арский Ю.М., Леонтьева Т.М., Никольский И.Ю., Шогин А.Н. Банк данных ВИНИТИ. Состояние и перспективы развития М.: ВИНИТИ, 2006. - 242 с.

69. Всероссийский институт научной и технической информации: Интернет портал. http://www.viniti.ru/

70. Фишер А.М. Обзор электронных каталогов крупнейших зарубежных научных информационных центров // НТИ. Сер.1. 2004. - № 9. - С.28-34.

71. ERPANET: Electronic resource preservation and access network. http://www.erpanet.org/index.php

72. Карклит В., Козлов M. E-mail это просто. - М.: CentroNet, 1996. - 57 с.

73. Компьютерные технологии обработки информации / Под ред. С.В.Назарова. -М.: Финансы и статистика, 1996. — 249 с.

74. Букин М. Рынок для VAS // PC Week № 45 (603) 4 декабря —10 декабря 2007

75. Мобильный маркетинг -http://www.mobilemarketing.ru/16551

76. Свириденко С.С. Современные информационные технологии — М.: Радио и связь, 1989. 303 с.

77. Базы данных деловой и коммерческой информации на компакт-дисках. -М.: Экотрендз, 1994. 87 с.

78. Эпштейн B.JI. Введение в гипертекст и гипертекстовые системы. http://www.ipu.ru/publ/epstn.htm

79. Субботин М.М. Гипертекст: Новая форма письменной коммуникации // Итоги науки и техники. Сер. Информатика. Т.18. - М.: ВИНИТИ, 1994. - 157 с.

80. Раевский А. Обзор технологий защиты информации при хранении // Windows IT Pro/RE № 7 окт. 2007— М.: Издательство «Открытые системы», 2007.-96 с.

81. Кузнецов И.Н. Информация. Поиск, анализ, защита М.: Амалфея, 2002. - 320 с.

82. ПУБЛИКАЦИИ АВТОРА ПО ТЕМЕ ДИССЕРТАЦИИ