Программные системы информационного обеспечения научной деятельности

Барахнин, Владимир Борисович

Теоретические основы информатики

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Программные системы информационного обеспечения научной деятельности

доктора технических наук: Барахнин, Владимир Борисович
город: Новосибирск
год: 2010
специальность ВАК РФ: 05.13.17

Диссертация по информатике, вычислительной технике и управлению на тему «Программные системы информационного обеспечения научной деятельности»

Автореферат диссертации по теме "Программные системы информационного обеспечения научной деятельности"

На правах рукописи

Барахнин Владимир Борисович

ПРОГРАММНЫЕ СИСТЕМЫ ИНФОРМАЦИОННОГО ОБЕСПЕЧЕНИЯ

НАУЧНОЙ ДЕЯТЕЛЬНОСТИ: МОДЕЛИ, СТРУКТУРЫ И АЛГОРИТМЫ

05.13.17 — теоретические основы информатики

АВТОРЕФЕРАТ

диссертации на соискание ученой степени доктора технических наук

?/пЗ т

Новосибирск - 2010

004619555

Работа выполнена в Институте вычислительных технологий Сибирского отделения Российской академии наук

Научный консультант:

член-корреспондент РАН, доктор физико-математических наук, профессор А. М. Федотов

Официальные оппоненты:

член-корреспондент РАН, доктор физико-математических наук, профессор В. В. Шайдуров

Ведущая организация:

Институт математики Сибирского отделения Российской академии наук

Защита состоится "18" февраля 2011 г. в 12— на заседании диссертационного совета Д 212.147.03 при Московском государственном университете печати по адресу: 127550, Москва, ул. Прянишникова, 2а.

С диссертацией можно ознакомиться в читальном зале библиотеки МГУП.

Автореферат разослан "15" декабря 2010 г.

Ученый секретарь диссертационного совета

доктор технических наук, профессор В. Ф. Хорошевский доктор технических наук, профессор С. В. Мальцева

д.т.н., профессор

В. Н. Агеев

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. Происшедшее за последние 10-15 лет бурное развитие высоких технологий в области передачи и обработки информации, в частности создание современных телекоммуникационных систем (прежде всего сети Интернет), привело к появлению принципиально новых возможностей организации практически всех этапов научно-информационного процесса, что в свою очередь обусловило качественный рост информационных потребностей научных работников.

К наиболее перспективным направлениям развития информационного обеспечения научной деятельности относятся информационные технологии. В данном исследовании речь пойдет только о тех способах удовлетворения информационных потребностей научного сообщества, которые базируются на электронных технологиях. В рамках указанного подхода основным инструментом информационного обеспечения научной деятельности являются информационные системы.

В настоящее время научные сообщества наиболее развитых стран и регионов мира обладают достаточно мощными информационными системами. В Европе функционирует интегрированная система ERGO. являющаяся частью проекта CORDIS. Среди американских разработок своими масштабами выделяется информационная система Библиотеки конгресса. США. К числу наиболее круппых и востребованных научным сообществом отечественных информационных систем относятся Единое научное информа^ ционное пространство (ЕНИП) РАН, "Ииформика", Университетская информационная система РОССИЯ, Научная электронная библиотека eLIBRARY, Соционет. Методология разработки программных систем информационного обеспечения различных аспектов научной деятельности на базе новых интернет-технологий предложена в работах Ю.И.Шокина и А.М.Федотова; А.Б.Жижченко, В.А.Серебрякова, А.Н.Бездушного и соавторов; А.Н.Тихонова, А.Д.Ивашшкова, В.П.Кулагина и соавторов; С.В.Мальцевой и др.

Названные системы в той или иной степени удовлетворяют потребностям исследователей в информации, однако каждая из них страдает определенными недостатками.

Во-первых, существенной проблемой большинства программных систем информационного обеспечения научной деятельности является недостаточно своевременная актуализация информации, особенно проявляющаяся при включении в научно-информационный процесс слабоструктурированных документов (т.е. документов, у которых значения атрибутов метаданных, как содержательных, так и структурных, не являются элементами заданных словарей). Наибольшие проблемы вызывает организация поиска по предметным классификаторам, поскольку слабоструктурированные документы нередко лишены соответствующих классификационных признаков.

Во-вторых, построение масштабных информационных систем для поддержки на^ учной деятельности требует распределенного хранения информации. Отсюда неизбежно возникает проблема интероперабельности, то есть обеспечения взаимодействия разнородных информационных источников (как с целыо их непосредственной интеграции, так и для организации поиска по однотипным подсистемам различных информационных систем). К сожалению, большинство информационных систем не обладает такими современными средствами обеспечения интероперабельности, как возможность работы со службой директорий, а также возможность интеграции с другими системами по схемам данных.

В-третьих, при создании информационных систем зачастую недостаточное внимание уделяется вопросам организации взаимодействия разрабатываемой системы с

потребителями информации. Для возможности эффективного восприятия человеком данных нужно, чтобы они были превращены в "информацию" и "знания". Сказанное, в частности, означает, что предполагаемая возможность извлечения из содержащихся в информационной системе данных новой информации и знаний1 влечет за собой необходимость наличия связей между документами, содержащими упоминание тех или иных сущностей, с документами, описывающими эти сущности.

Преодоление указанных проблем возможно путем создания интеллектуальных информационных систем, в качестве составных компонентов которых выступают, наряду с традиционной информационной системой, еще и рассуждающая информационная система (формализующая правила логического вывода), а также интеллектуальный интерфейс (диалог, графика и т.д.), благодаря которому компьютер в диалоговом режиме усиливает комбинаторное мышление и логические возможности человека.

Развитие сети Интернет предоставило создателям интеллектуальных информационных систем новые возможности, связанные с одновременным доступом ко множеству разнородных источников данных, что открывает широкие перспективы в развитии более совершенных технологий получения знаний. Однако многие современные исследования в области интеллектуального поиска опираются на неявное предположение о возможности широкого распространения более или менее подробной стандартизации представления информации. Разумеется, реализация подобных проектов, прежде всего концепции Semantic Web консорциума W3, позволила бы вывести работу с информацией на качественно новый уровень. Однако важная особенность сети Интернет как феномена цивилизации заключается в том, что развитие информационных ресурсов сети изначально носит децентрализованный характер, поэтому многие ресурсы, содержащие важную информацию из той или иной предметной области, не соответствуют рекомендациям консорциума W3. Отметим, что на большинстве сайтов документы являются слабоструктурированными, т.е. значения атрибутов их метаданных носят достаточно произвольный характер, а не являются элементами заданных словарей (это относится как к содержательным, так и к структурным метаданным).

Алгоритмы обработки слабоструктурированных документов описаны в работах как зарубежных (В.Кретцеттди, Дж.Мекка, П.Мериальдо, 2001; А.Сауджет, Ф.Азавант, 2001, и др.), так и отечественных (И.Некрестьянов, Е.Павлова, 2002, И.В.Некрасов, В.О.Толчеев, 2005, и др.) авторов. Основная идея таких алгоритмов базируется, как правило, на анализе их html-разметки. Однако имеются важные нерешенные проблемы:

1. Из документов извлекаются лишь те данные, которые присутствуют непосредственно в них самих, хотя в удаленных библиографических базах данных зачастую содержатся более подробные описания документов, которые сделаны экспертами, включающие коды классификатора (обычно отсутствующие в самих документах), ключевые слова и др.

2. Координатное индексирование русскоязычных документов, как правило, ограничивается однословными терминами (что объясняется отсутствием соответствующих алгоритмов ввиду сложности морфологического анализа русских словосочетаний) .

Таким образом, весьма актуальна решаемая в диссертационной работе проблема теоретического обоснования и разработки технологических основ создания программ-

*В диссертационном исследовании речь идет, прежде всего, об извлечении знаний о документах и об описываемых этими документами сущностях.

ных систем, обеспечивающих автоматизированное включение в научно-информационный процесс слабоструктурированных документов с целью получения на основании содержащихся в них данных новой информации и знаний.

Цель работы: теоретическое обоснование, разработка и реализация принципов создания программных систем информационного обеспечения научной деятельности, способных в автоматизированном режиме извлекать данные (описательные характеристики) из слабоструктурированиых электронных документов с целью получения на основании этих данных новой информации и знаний.

Задачи, решаемые и работе:

1. Анализ информационных потребностей научного сообщества в свете изменений, вызванных распространением интернет-технологий, а также новыми принципами функционирования и финансирования российской науки, основанный на сравнении характеристик информационных потребностей, изучении интеграционных проектов СО РАН и исследовании интернет-сайтов.

2. Разработка методологии комплексного изучения интернет-сайтов, учитывающей их информационное наполнение, организацию хранения и обработки данных, а также роль в информационном обеспечении соответствующего вида деятельности.

3. Создание модели информационного обеспечения деятельности научного сообщества, включая научно-организационную и научно-инновационную деятельность.

4. Разработка отвечающей основным системным принципам модели информационной системы.

5. Разработка информационной модели отношений и тематических связей между документами системы.

0. Разработка структуры логических компонентов системы, отвечающих за поиск информации, вывод новых знаний и диалог с пользователем.

7. Описание многомерных классификационных признаков, отвечающих такой совокупности заранее сформулированных информационных запросов, которая была бы в состоянии удовлетворить основные информационные потребности пользователей системы, а также выделение соответствующих классификационных признаков для систем информационного обеспечения научной, научно-организационной и научно-инновационной деятельности.

8. Разработка методики создания тезаурусов и онтологий, обеспечивающей высококвалифицированное описание предметной области с использованием надежно выверенных терминов и позволяющей провести начальный этап работы с минимальным привлечением специалистов — экспертов в данной предметной области.

9. Исследование принципов и разработка алгоритмов автоматизации научно-информационного процесса с участием слабоструктурированных документов, который включает извлечение метаданных из документов, координатное индексирование терминами-словосочетаниями и классификацию (кластеризацию) документов.

Методы исследования. В диссертации использованы методы информатики как науки о структуре и свойствах семантической информации, системного анализа, теории кибернетических систем, семиотики, теории моделирования баз данных, теории сходства, математического моделирования, а также информационные технологии.

Объект исследования. Данные, содержащиеся в слабоструктурированных текстовых электронных документах научной и научно-организационной тематики.

Предмет исследования. Модели, структуры и алгоритмы, описывающие программные системы информационного обеспечения научной деятельности, предназначенные для работы со слабоструктурированными документами с целью получения на основании содержащихся в них данных новой информации и знаний.

Научная новизна. Полученный в работе комплекс теоретических результатов, обобщений и исследований позволил решить научно-техническую проблему теоретического обоснования и разработки технологических основ создания программных систем, обеспечивающих автоматизированное включение в научно-информационный процесс слабоструктурированных документов с целью получения на основании содержащихся в них данных новой информации и знаний.

Наиболее существенные научные результаты заключаются в следующем:

- Обоснована методология комплексного изучения интернет-сайтов.

- Предложена модель информационного обеспечения деятельности научного сообщества. отличительными особенностями которой являются четкое выделение субъектов (включая организации и группы) и объектов деятельности, а также неиерархичность структуры субъектов деятельности.

- Разработана отвечающая основным системным принципам модель информационной системы, отличительной особенностью которой является использование в качестве основных структурных элементов документов (целостных информационных объектов, снабженных метаданными), связи между которыми задаются посредством направленных связей.

- Разработана структура логических компонентов интеллектуальной системы, базовыми объектами которой являются каталог, объединяющий поисковые образы исходных документов, и онтология предметной области.

- Предложена базовая структура представления информации на основании многомерной классификации, описываемая посредством задания подмножества метаданных, определяющего набор классификационных признаков, и сочетаний значений этих метаданных.

- Разработана методика создания тезаурусов и онтологий на основе предметного указателя специализированных энциклопедий, отличительной особенностью которой является возможность автоматизированного установления связей между терминами.

- Исследованы принципы и предложены алгоритмы автоматизации основных этапов научно-информационного процесса с участием слабоструктурированных документов (включая извлечение метаданных, определение ключевых слов, классификацию и кластеризации), причем программные средства, реализующие эти алгоритмы, функционируют как сетевые приложения.

Достоверность и обоснованность научных положений, результатов, выводов и рекомендаций, приведенных в диссертационной работе, обеспечиваются применением надежных методов исследования, корректностью использования адекватного математического аппарата и подтверждены результатами использования предложенных информационных моделей и структур при создании целого ряда разделов Информационно-справочной системы Сибирского отделения РАН, применением разработанных алгоритмов обработки слабоструктурированной информации для развития разрабатываемых в институтах СО РАН информационных систем по конкретным направлениям наук, а также апробацией и обсуждением результатов работы на международных и

всероссийских научных конференциях, рецензированием и предварительной экспертизой научных статей, опубликованных в ведущих научных изданиях.

Практическая значимость и внедрение. На основе полученных в работе теоретических результатов и методических рекомендаций создан комплекс методов, обеспечивающий решение важной научно-технической задачи: включения в научно-информационный процесс слабоструктурированных интернет-документов с целью получения на основании содержащихся в них данных новой информации и знаний.

Результаты работы использованы при выполнении проекта конкурса молодых ученых ННЦ СО РАН "Интегрированная информационная система научного сообщества (пилотный проект — система «Математика»)" (автор выступал в роли руководителя проекта); молодежного научного проекта СО РАН 2003-6 "Разработка информационной системы «Web-рссурсы математического содержания»" (автор выступал в роли руководителя проекта); проектов программы поддержки ведущих научных школ РФ № НШ—2314.2003.1 "Информационно-вычислительные технологии в задачам принятия решений", HLLI-988G.2006.9 и .V НШ-931.2008.9 "Разработка информационно-вычислительных технологий в задачах принятия решений", НШ-6068.2010.9 "Разработка информационно-вычислительных технологий поддержки принятия решений"; Федеральной целевой программы "Научные и научно-педагогические кадры инновационной России" на 2009-2013 гг. (госконтракт ГК № П484 от 04.08.2009 г. по проблеме "Создание научно-технического задела, направленного на разработку новых, эффективных с позиций функциональности и безопасности, основанных на онтологиях. мульти-агентных технологий управления распределенными разнородными информационными хранилищами и библиотеками информационных ресурсов"); госконтрактов "Технология разработки распределенных программных систем для мониторинга больших корпоративных научно-образовательных сетей передачи данных на базе современных методов интеллектуального анализа данных и машинного обучения" (шифр 2007-4-1.4-00-04103) и "Технология разработки распределенных программных систем для мониторинга и обеспечения информационной безопасности информационных систем, потенциально уязвимых в отношении деструктивных информационных воздействий" (шифр 2007-41.4-15-04-004): проектов РФФИ Л'» 03-07-90423-в "Виртуальный музей науки и техники СО РАН", Ns 06-07-89060-а "Разработка модели виртуальной среды для обмена результатами научных исследований", № 0б-<)7-99003-с "Ресурсы сети Интернет как объект научного исследования" (конкурс научно-популярных статей, в соавторстве с А. М. Федотовым), У' 07-07-00271-а "Разработка и анализ модели управления доступом к распределенным информационным ресурсам" № 09-07-00277-а "Разработка технологий построения распределенных интегрируемых систем обработки, хранения и передачи информационных ресурсов на основе открытых спецификаций моделей данных", ,\ä 10-07-00302-а "Разработка и анализ модели построения электронных библиотек на основе международных стандартов"; интеграционных проектов СО РАН № 2003-132 "Виртуальный музей науки и техники СО РАН", Л'* 2006-34 "Создание распределенной информационно-аналитической среды для исследований экологических систем", 2006-35 "Древовидный каталог математических интернет-ресурсов", JV! 2000—115 "Разработка интеллектуальных информационных технологий генерации и анализа знаний для поддержки фундаментальных научных исследований в области естественных наук", № 2009-50 "Модели изменения биосферы на основе баланса углерода (по натурным и спутниковым данным и с учетом вклада бореальных экосистем)".

Результаты исследований были отмечены премией конкурса Администрации Новосибирской области за научные разработки молодых ученых и премией Благотворительного фонда В. Потанина за победу в конкурсе "Лучшие молодые преподаватели вузов

Сибирского федерального округа".

Результаты исследований внедрены в Информационно-справочной системе СО РАН, занимающей, по данным на июль 2010 г. рейтинга Webometrics, в который входят сайты ведущих научно-исследовательских центров всего мира. 1-е место среди российских сайтов (19-е — в Европе, 54-е — в мире), а также использованы в процессе создания ряда систем информационного обеспечения научной деятельности: Электронного атласа биоразнообразия животного и растительного мира Сибири, Электронной библиотеки MathTYee, Распределенной информационно-аналитической среды для экологических исследований, сайта журнала "Вычислительные технологии".

Результаты диссертационной работы использованы в учебном процессе кафедры маг тематического моделирования Новосибирского государственного университета, кафедры вычислительных технологий Новосибирского государственного технического у?ти-верситета и кафедры прикладной математики и кибернетики Сибирского государственного университета телекоммуникаций и информатики.

- модель информационного обеспечения деятельности научного сообщества, отличающуюся от известных четким выделением субъектов и объектов деятельности;

- отвечающую основным системным принципам модель информационной системы, представляемой как множество документов (целостных информационных объектов, снабженных метаданными), связи между которыми задаются посредством направленных связей;

- оригинальный алгоритм создания тезаурусов и оптологий на основе предметных указателей специализированных энциклопедий;

- принципы и алгоритмы автоматизации основных этапов научно-информационного процесса с участием слабоструктурированных документов (включая извлечение метаданных, определение ключевых слов, классификацию и кла-стеризцию), причем программные средства, реализующие эти алгоритмы, функционируют как сетевые приложения.

2(108), Всероссийских конференциях с международным участием "Знания - Онтологии - Теории" - ЗОНТ (Новосибирск, 2007, 2009); Всероссийских научно-практических конференциях "Инновационные недра Кузбасса. 1Т-технологии" (Кемерово, 2005, 2007, 2008); Всероссийской научно-практической конференции "Системы автоматизации в образовании, науке и производстве" (Новокузнецк, 2007); Всероссийских конференциях молодых ученых по математическому моделированию и информационным технологиям (Красноярск, 2003; Монголия, Ханх, 2009 — лекционный доклад; Красноярск, 2010 — лекционный доклад); Конференциях молодых ученых СО РАН, посвященных М. А. Лаврентьеву (Новосибирск, 2003, 2004); а также на семинарах и совещаниях в Институте вычислительных технологий СО РАН, Институте системного анализа РАН, Институте математики СО РАН, Институте систем информатики СО РАН, Институте динамики систем и теории управления СО РАН, Московском государственном университете печати, Новосибирском государственном университете и др.

Публикации. Результаты диссертации опубликованы в 57 работах (список приведен в конце автореферата), включая 21 статью в ведущих журналах, рекомендованных ВАК РФ [1-21], 1 статью в журнале "Электронные библиотеки" [22), 13 статей в сборниках трудов международных конференций [23-35], 22 статьи в сборниках трудов всероссийских конференций [36-57].

В работах, выполненных в соавторстве, В.Б.Барахнину принадлежат результаты, относящиеся к исследованию информационных потребностей научного сообщества, разработке информационной модели описания деятельности научного сообщества, моделей и структур основных компонентов интеллектуальной системы, модели направленных связей между документами, базовых структур представления информации, разработке методики комплексного изучения интернет-сайтов, разработке методики создания тезаурусов и онтологии на основе предметного указателя энциклопедий, исследованию принципов и созданию алгоритмов автоматизации научно-информационного процесса с участием слабоструктурированпых интернет-документов, а также результаты по практическому использованию этих алгоритмов.

Структура и объем диссертации. Диссертация состоит из введения, 7 глав, заключения, списка использованных источников из 285 наименований, приложений (в т.ч. актов и справок о внедрении результатов в научных учреждениях и в учебный процесс вузов). Общий объем работы 315 страниц, включая 24 рисунка и 8 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ

Во введении обосновывается актуальность диссертации, сформулированы цели, задачи, объект, предмет и методы исследования, приведены научная новизна и практическая ценность работы, дана общая характеристика работы.

В первой главе излагаются теоретические основы создания программных систем информационного обеспечения научной деятельности.

В § 1.1 на основе семиотического подхода проведено уточнение терминологии, используемой в исследовании. Речь идет1 о термишж "информация", "знание", "тезаурус", "онтология", "информационная система", "интеллектуальная информационная система".

На основании анализа работ К.Шеннона, Л.Бриллюэна, С.Голдмана, А.А.Колмогорова. А.Н.Ляпунова, А.И.Михайлова, Р.С.Гиляревского, А.И.Черпого, П.Чена, Ю.А.Шрейдера, У.Шрамма, Р.Акоффа, Ф.Эмери, В.Гитта, Ю.М.Арского, И.М.Зацмана изучена эволюция понятия "информация". Показано, что наиболее полно различные аспекты термина "информация" отражены в модели В.Гитта (1982),

согласно которой сообщение может нести до 5 уровней информации: статистический, синтаксический, семантический, прагматический и т.н. апобетический. При этом наличие в некотором сообщении информации высокого уровня влечет за собой наличие информации всех низших высоких уровней, но, разумеется, не наоборот. Идеи, весьма близкие к тем, которые воплощены в модели В.Гитта, однако в несколько менее стройной форме, были высказаны в монографии Ю.А.Шрейдера и А.А.Шарова (1982).

Показано, что нижний уровень модели соответствует тттенноновскому значению термина "информация", три последующих — семиотической триаде (синтактика — семантика, — прагматика), а верхний уровень носит, скорее, философский характер.

Важно подчеркнуть, что семиотический подход фактически использован при определении базисных понятий в фундаментальной монографии ВИНИТИ "Инфосфера" (1996). Данные понимаются и ней (в соответствии с традиционным подходом) как факты и идеи, представленные в символьной форме, позволяющей проводить их передачу, обработку и интерпретацию, а информация — как смысл, приписываемый данным на основании известных правил представления фактов и идей. Структурированная (связанная причинно-следственными и иными отношениями) информация, образующая систему, составляет знания. Исходя из этого понимания терминов "данные", "информап^:я", "знания", можно сказать, что данные соответствуют синтаксическому уровню сообщения, информация (в узком смысле!) — семантическому, а знания — прагматическому.

Термин "тезаурус" прочно вошел в профессиональную лексику специалистов в области информатики в середине 1950-х годов (Кембриджская группа по исследованию языка, Ч.Верньер), причем определения тезауруса непринципиально варьировались в зависимости от класса задач, для решения которых предназначался тезаурус. Применительно к задачам информационного поиска под тезаурусом понимался так называемый нормативный тезаурус — словарь-справочник, содержащий все лексические единицы информационно-поискового языка — дескрипторы, причем дескрипторы в словаре должны быть систематизированы по смыслу, а смысловые связи между ними эксплицитно выражены.

Однако в 1990-х годах в информатике, наряду с термином "тезаурус", стал употребляться близкий по смыслу термин "онтология". В настоящее время под онтологией нередко стали понимать широкий спектр структур, представляющих знания о той или иной предметной области с разной степенью формализации, при этом в работах многих авторов термин "онтология" начал употребляться вместо термина "тезаурус". Возникла ситуация, когда разными терминами стали называть один и тот же объект. Попытка разрешения коллизии сделана в работах А.С.Нариньяни, причем в основе проделанного им анализа лежит семиотическая методология. Из его работ вытекает следующий практический вывод: тезаурус становится онтологией тогда, когда связи между дескрипторами не просто эксплицированы (как это предусмотрено в классическом определении), но и классифицированы.

Наконец, когда в исследовании идет речь об программных системах информационного обеспечения научной деятельности, подразумеваются интеллектуальные информационные системы, включающие в себя ("Инфосфера"), наряду с информационной системой (понимаемой, в узком значении термина, как множество связанных между собой ресурсов), логическую систему, интеллектуальный интерфейс, а также средства автоматического пополнения базы данных и извлечения данных из текстов. Такие системы обладают новыми возможностями по сравнению с классическими информационно-поисковыми системами, позволяя удовлетворить квалифицированного пользователя в соответствии со схемой "документ — факт — рассуждение", то есть, в соответствии с приведенными выше определениями, интеллектуальные информационные системы поз-

воляют не только извлекать из данных информацию, но и получать новые знания.

На основании изложенного сделан вывод, что функционирование интеллектуальной информационной системы основано на двух противоположных процессах: при ее пополнении новыми сведениями происходит преобразование семантической информации в данные, однако непосредственно потребности пользователя удовлетворяет обратный процесс — извлечение го данных нужной пользователю информации и знаний.

В § 1.2 проанализированы основные особенности научно-информационного процесса с участием интернет-документов.

Показано, что важнейшей отличительной особенностью процесса каталогизации интернет-документов является использование метаданных, которые (см. Ю.Е.Хохлов, С.А.Арнаутов), нельзя рассматривать как обычную разновидность каталожного описания документов ввиду специфики области их применения, используемых подходов и т.п. Иными словами, сбор интернет-документов сводится к сбору их метаданных, поскольку, информационная система работает исключительно с метаданными; к тому же непосредственное копирование документов может вызвать серьезные вопросы относительно соблюдения авторских прав.

Согласно стандартам построения открытых систем, структура и содержание документа должны описываться в соответствии с международными схемами данных. Для описания соответствующих схем данных используются метаданные, которые определяют структуру и смысловое содержание документа, а также правила работы с ним. Показано, что структура метаданных иерархична: наиболее общий характер имеют метаданные, задающие структуру документа, то есть описывающие метаданные более низкого уровня (атрибуты документа), которые определяют содержание документа, наконец, значения этих атрибутов является фактически метаданными по отношению к исходному документу.

Стандарты на метаданные для описания научной информации должны обеспечивать полноту описания основных типов научной информации, открытость для доступа, расширяемость описаний, возможность интеграции информации, уникальную идентификацию информации, распределенность хранения информации, интероперабельность с внешней средой. В наибольшей степени перечисленным требованиям удовлетворяет набор элементов метаданных так называемого Дублинского ядра (Dublin Core), который может быть расширен схемами конкретной предметной области.

Показало, что существующие подходы к сбору метаданных документов в информационных системах недостаточно хорошо подходят для работы со слабоструктурированными документами. Так, электронные библиографические базы (Current Contents, Zentralblatt MATH, Реферативные журналы) содержат составленные экспертами краткие аннотации "бумажных'' документов без ссылок на электронные (обычно более подробные, чем аннотация) версии документов и уж тем более без метаданных, задающих ссылки на документы, описывающие персоны авторов. Информационно-поисковые системы научной тематики (каталоги ресурсов) работают с документами после непосредственного согласования форматов метаданных, при этом активно развиваемые в последнее время системы, использующие концепцию Semantic Web, могут работать только с документами, у которых значения метаданных суть элементы заданных словарей. Наконец, поисковые системы общего назначения работают с любыми документами, но слабо используют анализ метаданных, что приводит к к низкой пертииентности найденных документов.

В процессе анализа особенностей процесса обработки интернет-документов отмечено следующее. В тех случаях, когда документ сети Интернет представляет конкретную сущность (книгу, статью и т.п.) или же отображает ее (то есть является точной копией

или электронным образом другого документа), подходы к изучению его информационного содержания аналогичны тем, которые применяются в библиотечном деле при изучении информационного содержания полиграфического издания. Если же интернет-документ описывает реальную сущность, например персону, организацию, артефакт, природный объект и т.д., его стандартного библиографического описания может оказаться явно недостаточно для создания адекватного поискового образа документа. Во избежание этого библиографическое описание дополняется необходимой информацией, относящейся к описываемой сущности, для чего используются стандарты или принятые правила соответствующей предметной области.

Отличительной особенностью интернет-документа является наличие у него сетевого имени, без занесения которого в каталожную карточку документа каталогизация становится бессмысленной. Заметим, что речь идет не только о статических именах: имя, образуемое при запросе динамически формируемого интернет-документа, также может быть использовано для каталогизации.

Другой особенностью интернет-документа, резко отличающей его от полиграфического издания, является возможность внесения в него изменений. Необходимость оперативного отслеживания изменений — важная составляющая процесса каталогизации интернет-документов.

Показано, что задача более или менее полной каталогизации интернет-документов научной и научно-организационной тематики в соответствии с библиографическими стандартами крайне сложна ввиду следующих причин:

1. Огромное количество документов, причем в качестве новых интернет-документов могут выступать давно опубликованные полиграфические документы (так, многие научные журналы постепенно выкладывают на свои сайты статьи, вышедшие в старых номерах).

2. Отсутствие специальных структур, отслеживающих появление новых документов в сети, — например, каталогизацией научных интернет-документов обычно занимаются заинтересованные специалисты, работающие в соответствующей предметной области.

3. Необязательность авторской классификации интернет-документов (в отличие от печатных изданий) посредством их аннотирования, приписывания кодов классификатора и т.п., что значительно осложняет процесс каталогизации.

4. Проблема отслеживания изменений документов.

На основании сказанного сделан вывод о том, что важнейшей особенностью интернет-документов является необходимость и возможность частичной автоматизации процесса каталогизации.

Для создания модели информационного обеспечения деятельности научного сообщества необходима разработка методологии комплексного изучения интернет-сайтов, учитывающей, прежде всего, их качественные характеристики (в отличие от традиционных вебометрических методик, делающих упор на статистические характеристики). В § 1.3 предложена методология комплексного изучения интернет-сайтов.

Выделяются три основных аспекта научного анализа тех или иных артефактов (в т.ч. сайтов):

1) технология производства;

2) сравнительный анализ артефактов на основе их функциональных свойств (систематизация, классификация и т.п.);

3) влияние (в широком смысле) на человека и общество.

Обычно научный интерес представляют лишь некоторые из перечисленных аспектов, притом рассматриваемые по отдельности. Комплексно все три указанных аспекта изучаются лишь в архитектуре (А.В.Икошшков), объекты которой имеют принципиальное сходство с сайтами по целому ряду признаков:

1. Если архитектура представляет собой организацию среды физического пребывания человека, то сеть Интернет впервые создает единое информационное пространство человеческой цивилизации.

2. Разнообразие информационных потребностей вызывает необходимость массового производства интернет-сайтов самого разнообразного назначения, сопоставимого с массовым строительством, причем среди технологий, применяемых в мелкосерийном или штучном производстве, технологии строительства и создания иитернет-сайтов относятся к числу наиболее сложных, что приводит к необходимости их системного изучения.

3. Архитектурные сооружения и интернет-сайты имеют определенное структурное сходство, так как представляют совокупность более или менее однородных объектов (соответственно помещений и документов), связанных между собой определенным образом.

4. Терминология описания интерпет-сайтов во многом заимствована из архитектуры (термины "архитектура сайтов", "строительство сайтов", "портал" и проч.).

Особенно ярко данное обстоятельство проявилось в истории развития идеи шаблонов проектирования. Первоначально (К.Алексапдер, 1977) они возникли для решения задач архитектуры, однако наиболее широкое развитие получили в задачах программирования. причем первый шаг в этом направлении (К.Бек, В.Капнингем, 1987) был сделан применительно к технологии создания пользовательских интерфейсов.

Таким образом, для изучения интернет-сайтов с целью создания создания модели информационного обеспечения той или иной сферы деятельности в диссертации обосновано использование комплексного подхода к изучению характеристик интернет-сайтов, при котором сайт исследуется в нескольких взаимосвязанных аспектах:

1) как источник данных,

2) как техническое средство обработки и распространения информации,

3) как социокультурный феномен

(традиционно эти аспекты рассматривались по отдельности).

Во второй главе на основании проведенного анализа информационных потребностей научного сообщества построена модель описания его деятельности.

В § 2.1 исследованы основные характеристики информационных потребностей в сфере науки на современном этапе. Основные результаты в этой области получены в монографиях ВИНИТИ "Научные коммуникации и информатика" (1976) и "Инфосфера" (1990), однако происшедшее за последние 10-15 лет развитие высоких технологий в области передачи и обработки информации, в частности, создание современных телекоммуникационных систем (прежде всего сети Интернет как источника множества разнородных документов научной направленности); привело к появлению принципиально новых возможностей организации практически всех этапов научно-информационного процесса, что, в свою очередь, обусловило качественный рост информационных потребностей научного сообщества, выразившийся в желании незамедлительно получать нужную информацию (еще в середине 1990-х годов отмечалось, что для ученых срочность удовлетворения информационных потребностей не важна).

К тому же за указанный период времени в России произошло изменение принципов функционирования и финансирования науки, что также не могло не сказаться на характере информационных потребностей ученых. Так, в монографии "Инфосфера" проведено резкое разграничение информационных потребностей ученых-исследователей, специалистов-инженеров, и управленцев. В настоящее же время благодаря господству высоких технологий размывается грань между наукой и производством, вследствие чего ученые, используя результаты своих фундаментальных исследований, стали более активно заниматься опытно-конструкторскими работами и даже непосредственным производством уникальных наукоемких изделий. Ввиду этого, как показано в диссертации, у ученых возникает потребность не только в научно-исследовательской, по и научно-инновационной информации. Кроме того, выполнение проектов Федерального агентства по науке и инновациям, грантов РФФИ и т.п. требует управленческих навыков, включая использование управленческой (научно-организационной) информации, не только от руководства научных учреждений, но и непосредственно от ученых-исследователей.

В § 2.2 проведено исследование оценки научным сообществом сравнительной важности тех или иных форм удовлетворения информационных потребностей коллективных пользователей. С этой целью проведен анализ тематики интеграционных проектов СО РАН за 2000-2009 гг. в области информатики и ее приложений к задачам других наук (см. табл. 1), который показал, что коллективные пользователи — научные учреждения СО РАН особенно нуждаются в разработке специализированных информационных систем на основе интернет-технологий с использованием современных алгоритмов обработки данных и в технологиях получения новых знаний из данных, причем первая из названных задач тесно увязана со второй.

Таблица 1. Распределение интеграционных проектов по тематике (некоторые проекты соответствуют сразу нескольким направлениям).

Годы Моделир. Анализ моделей Телекомм. Анализ данных, Создание информ. систем

интеллекта информ. структ ур системы извлеч. знаний в т.ч. с анализом данных

2000 0 0 20% 40% 80% 25%

2003 8% 0 17% 50% 67% 50%

2006 9% 9% 27% 55% 45% 80%

2009 20% 0 30% 80% 50% 100%

На основе анализа интеграционных проектов установлено, что наблюдается рост потребностей коллективных пользователей — научных учреждений СО РАН как в разработке специализированных информационных систем, основанных на интернет-технологиях, так и в технологиях получения ноиьтх знаний из данных, причем первая из названных задач тесно увязана со второй.

В § 2.3 показано, что простейшая модель описания деятельности1, имеет вид

МИ = <51,52,01,02)Г^,8^,Г(З{1О,-),Г(О(,О^»,

где й, и - множества субъектов деятельности (соответственно групп и персон), О, и 02— множества объектов деятельности (соответственно предметов и продуктов деятельности), г(я{, г(о{, о,-} — связи вида "субъект — субъект", "субъект —

диссертационной работе речь идет исключительно о деятельности, связанной с инфор-мацшнтыми объектами.

объект", "объект — объект" соответственно (номер индекса отвечает тому или иному типу субъекта или объекта).

Путем сравнительного анализа моделей информационного обеспечения деятельности научного сообщества и других видов человеческой деятельности, сходных с пей в том или ином аспекте (производство, искусство, законодательная и общественная деятельность), установлено, что модель описания научной деятельности обладает следующими особенностями:

1) необходимость включения подробной информации о персонах, связи персон сохраняют актуальность;

2) необходимость включения подробной информации о структуре групп;

3) возможность вхождения персоны сразу в несколько групп;

4) максимально подробное представление информации о предмете деятельности;

5) наличие связей между персонами и предметом деятельности.

Дополнительные характеристики блока научно-инновационной информации заключаются в следующем:

1) субъекты деятельности — преимущественно организации;

2) возможность утраты отдельными источниками актуальности;

3) наличие большого количества "внешних" источников (например нормативно-правовых актов), которые могут быть непосредственно связаны с объектами деятельности.

Отличительной особенностью предложенной информационной модели описания деятельности научного сообщества (иногда называемой для ясности моделью информационного обеспечения деятельности научного сообщества) является, во-первых, четкое выделение субъекта и объекта деятельности. Предложенная модель эффективна при описании как научной деятельности в той или иной предметной области (когда основные субъекты деятельности — персоны), так и деятельности крупных научных корпораций (когда в качестве основных субъектов деятельности, наряду с персонами, выступают организации). Другой отличительной особенностью модели является неиерархич-пость структуры субъектов деятельности, возникающая из-за возможности вхождения персоны сразу в несколько групп. Ввиду этого требует решения проблема работы с персональными данными, которые могут одновременно принадлежать к разным ветвям иерархического дерева и вместе с тем должны однозначно определять персону, поскольку предполагаемая возможность извлечения из содержащихся в информационной системе данных новую информацию и знания влечет за собой необходимость наличия связи имен собственных (как элементов библиографического описания и т.п.) с информацией о конкретных носителях этих имен, ибо в противном случае имя несет лишь назывную, но не информационную функцию (А.И.Михайлов и др., 1976)

В третьей главе описана структура основных компонентов программной системы информационного обеспечения научной деятельности.

В § 3.1 на основании обобщения результатов, полученных в главах 1 и 2, сформулированы основные требования к отвечающей основным системным принципам программной системе информационного обеспечения научной деятельности:

— лежащая в основе системы информационная модель описания деятельности научного сообщества (являющаяся концептуальной моделью предметной области) должна отражать различные аспекты деятельности научного сообщества, включая научио-организационную и научно-инновационную деятельность;

— отвечающая основным системным принципам модель информационной системы (выступающей в качестве основного компонента создаваемой программной системы) должна позволять работать с основными элементами системы — документами (то есть ресурсами, снабженными метаданными) как с целостными информационными объектами;

— структура связей в модели должна обеспечивать возможность принадлежности персоны одновременно к нескольким ветвям иерархического дерева групп — субъектов деятельности и вместе с тем однозначно определять персону, позволяя связывать имена собственные (как элементы библиографического описания и т. п.) с информацией о конкретных носителях этих имен;

— структуры представления информации и логических компонентов интеллектуальной системы должны обеспечивать удовлетворение потребностей пользователей (независимо от их квалификации в области информатики) в информации и знаниях, получаемых на основе данных системы;

— алгоритмы, обеспечивающие включение в научно-информационный процесс слабоструктурированных документов, должны обеспечивать максимальную автоматизм цию всех его этапов (включая извлечение метаданных, определение ключевых слов, классификацию, а также предварительный этап создания тезауруса и онтологии предметной области), причем программные средства, реализующие эти алгоритмы, должны создаваться и функционировать как интернет-приложения.

По итогам анализа интеграционных проектов, в рамках которых были созданы программные системы информационного обеспечения какой-либо отрасли науки, например "Электронный атлас биоразнообразия животного и растительного мира Сибири" или "Электронная библиотека MathTree", было установлено (см. А.М.Федотов и др., Ю.Л.Ертттов и др.), что подобные системы могут развиваться лить в случае актуализации информации самими пользователями этих систем. Более того, даже относительно систем научно-организационной направленности, создаваемых в рамках одной большой научной корпорации — СО РАН, сделан вывод, что "эффективная эксплуатация информационных ресурсов возможна только в том случае, когда они постоянно поддерживаются авторами" (О.Л.Жижимов и др.). Исходя из этих положений, в диссертации обосновано, что практическое взаимодействие программных систем с внешним миром в плане занесения в них новых данных целесообразно организовывать преимущественно (или даже почти исключительно) с использованием схемы "клиент-сервер". Это, в частности, означает экономическую неэффективность использования коммерческих программных продуктов, откуда вытекает необходимость разработки достаточно простых и легко воспроизводимых алгоритмов автоматизации научно-информационного процесса.

В § 3.2 описала предлагаемая модель информационной системы. Сначала проведено сравнение различных подходов к выбору основного структурного элемента интеллектуальных информационных систем, что является важнейшим вопросом, возникающим при определении концепции построения модели информационной системы. Модель RDF консорциума W3 предлагает рассматривать в качестве элементов системы ресурсы, которые могут представлять и сущности, и их характеристики. Неудобство такого подхода очевидно: появляется множество равноправных мелких элементов, между которыми устанавливается чрезвычайно много связей, структура модели далека от естественной. Модель ИСИР РАН рассматривает в качестве элементов "ресурсы, аналогичные доку-ментоподобным объектам". Эта формулировка недостаточно определенна, к тому же связи в этой модели имеют внешний характер по отношению к ресурсу.

Особо следует подчеркнуть, что эти модели, основанные на концепции Semantic

Web, ориентированы на работу с хорошо структурированными документами, значении атрибутов метаданных которых суть элементы заданных словарей, что практически делает труднодоступным для обработки множество слабоструктурированных документов (в т.ч. размещенных в Интернете).

В данном исследовании основной элемент модели есть документ (информационный объект, имеющий, как и всякий ресурс, уникальный идентификатор, и к тому же обладающий метаданными). Принципы построения модели вобрали в себя черты, свойственные как для традиционного объектно-ориентированпого подхода, так и для используемого в Semaiitic Web языка RDFS. В частности, как будет показано ниже, мы описываем классы в терминах их структуры, как это принято в ООП, а не определяем свойства в терминах классов, что характерно для RDFS. Такой выбор связан с тем, что задание базовых структур создаваемой системы, опирающееся на разработанную модель предметной области, носит централизоваггаый характер. С другой стороны, ограничении, накладываемые моделью на свойства классов, носят менее жесткий характер, чем при объектно-ориентированном подходе (например, может быть объявлено произвольное, в том числе нулевое, количество значений некоторого элемента метаданных), что сближает наш подход с RDFS.

Указанные особенности модели позволяют успешно применять ее при создании интеллектуальных информационных систем, предназначенных для работы со слабострук-турировацными документами.

Модель информационной системы имеет вид

S = {М,К4,МЦКи Кv)),

где M — множество используемых метаданных, K¡ : N —» Р{М) — классы документов, определяемых соответствующими множествами элементов метаданных (Р(М) — множество подмножеств множества JVÍ с учетом возможных повторений элементов, M'(Ki, Ki•) — типы возможных связей между классами, когда документ из класса К? может входить в качестве значения элемента М* метаданных документа из класса K¡. Тем самым любой документ di системы представляется как

4 =<"#),

где т{'к — значения элементов метаданных АР, к — количество значений (с учетом повторений) j-го элемента метаданных в описании документа. Таким образом, модель данных информационной системы может быть отнесена к моделям мифологического типа (Б.Лангефорс).

Показано, что при построении модели соблюдены основные системные принципы: целостность, структурность, иерархичность, множественность описания, взаимозависимость системы и среды.

Принцип, рассматриваемый в рамках макроподхода (взаимозависимость информационной системы и среды) непосредственно из свойств модели не вытекает, но эти свойства способствуют успешной реализации данного принципа. Их список приведен ниже:

- включение в сеть Интернет;

— максимальная автоматизация процесса актуализации информации;

- управление процессом актуализации производится самими пользователями системы;

— для обеспечения синтаксической ингероперабельности (согласования моделей данных и форматов их представления) используется принцип каталогизации.

Соответствие принципам, рассматриваемым в рамках микроподхода, зависит непосредственно от свойств модели.

- Целостность системы проявляется в зависимости каждого объекта, свойства и отношения от его места и функций внутри целого и реализуется посредством использования единого набора метаданных

М = U М\

- Иерархичность системы проявляется в том, что она состоит из, вообще говоря, разнородных подсистем, отвечающих тем или иным частным задачам. Документы, описываемые при помощи одних и тех же элементов метаданных, образующих множество М, С М, образуют класс Если Mt с М, Мг С М и Mi С Aij. то класс Kj является подклассом класса Ki. Множество унифицированных структурированных документов-описаний одного класса, как уже отмечалось, называют каталогом. Фактически, каталог объединяет поисковые образы исходных документов.

- Структурность системы обеспечивается выбором модели связей между документами, позволяющей адекватно описывать различные аспекты соответствующих межсущностпых отношений. Достаточно универсальный характер имеет, например, уже модель направленных связей. Суть ее состоит в том, что связь между документами задается как вхождение документа (¿¡/ в качестве значения некоторого элемента метаданных МJ документа d.j и определяется формулой

М' < ditd{i,m|'* >,

где mJ'j, — атрибуты этой связи, являющиеся значениями соответствующих элементов метаданных: I — индекс элемента, к — количество значений (с учетом повторений)

- Множественность описания системы подразумевает наличие множества различных аспектов построения системы (модель данных системы, информационная модель системы, ее содержательное наполнение и проч.)

В § 3.3 излагаются особенности модели направленных связей между документами, которая записывается в виде A(R, V): объект R имеет атрибут А со значением V (R — головной документ, а V — подчиненный).

Основное отличие предлагаемой модели от модели RDF состоит в том, что выстраиваемые отношения переносятся на уровень элементов, определяющих структуру документов, причем связи между' документами устанавливаются путем задания на множестве документов бинарных отношений с дополнительными атрибутами, не укладывающимися в общую схему. С другой стороны, аналогичная модель "многие-ко-многим" (Ш.Атре, Дж. Ульман) использует многоместные отношения с их последующей декомпозицией r процессе нормализации. Таким образом, в предлагаемой модели декомпозиция проводится на более высоком уровне абстрагируемости от структуры данных, что делает ее более универсальной.

Выделены два вида отношений:

- Отношение порядка между документами, выстраивающее иерархию подчинения в коллекции, например отношение подчиненности между документами в коллекции "Организации". Данный тип отношения предполагает установление только односторонней связи между документами.

- Отношение связи между документами, например отношение типа принадлежности между документами коллекции "Организации" и документами коллекции "Персоны". Данный тип отношения допускает установление двухсторонней связи между документами, в том смысле, что одновременно может существовать и обратная связь. Таким образом, направленность связи определяется порядком записи аргументов отношения А(Я, V), т-е- любой объект также может играть и роль значения.

Различие отношений первого и второго типа заключается в том, что отношениям первого типа изначально приписано свойство — иерархия, а отношениям второго типа никаких свойств изначально не приписано. Свойства отношений второго типа определяются для каждого конкретного отношения.

Исходя из свойств отношений второго типа, в документе выделяются два типа элементов:

1) элементы, содержание которых не зависит от значений атрибутов отношения;

2) элементы, содержание которых может зависеть от значений атрибутов отношения (например, от должности персоны в организации зависит служебная информация).

Персона может занимать различные позиции: быть автором или редактором публикации. занимать некоторую должность в организации, быть председателем или членом совета и т.д. Все эти случаи представляются одним типом отношения, который может принимать различные наименования (директор, аспирант, председатель совета, автор и т.д.)

Отличительной особенностью предложенной модели является возможность связи имен с информацией об их носителях в случае, когда соответствующие денотаты (персоны) входят одновременно в разные структурные группы. Модель данных позволяет не вводить дублирующие записи, а разделять информацию о персоне на две части: личную — связанную с самой персоной, и ролевую — связанную с позициями, занимаемыми персоной, причем каждой позиции соответствует новая ролевая запись.

В § 3.4 представлена структура логических компонентов интеллектуальной системы. Для получения новых знаний пользователь может:

1) формулировать такие запросы, которые для объектов с заданными требованиями па значения признаков указывают значение других признаков;

2) проверять, истинно или нет утверждение , ■ • ■, (¿О относительно сущностей, описываемых документами ,..., «¿;„. Высказыванию ,..., ¿¡„) формально соответствует ге-местный предикат Р„ определенный на множестве документов, причем при его построении могут использоваться определенные документы системы (точнее, значения атрибутов этих документов), информация из онтологии предметной области и т.п.

Возможность получения в результате поискового запроса пертинентных документов появляется лишь в том случае, когда информационно-поисковый язык имеет средства выражения имманентных отношений, то есть обладает онтологией, включающей тезаурус. Показано, что наличие онтологии в качестве составной части информационно-поискового языка, используемого при создании каталога, является обязательным условием возможности реализации сложных внутрисистемных информационных запросов.

Если количество документов в системе, способных выступать в качестве аргументов предиката Р„, велико, то проводится проверка истинности предиката на различных

наборах документов, автоматически перебираемых системой. Тем самым реализуется механизм автоматического извлечения данных из документов с целью пополнения базы данных посредством этих фактов, который характеризует интеллектуальные информационные системе высокого уровня.

Отличие предлагаемого подхода от традиционных экспертных систем (см., например, работы Т.А.Гавриловой, В.Ф.Хорошевского и др.) состоит в том, что последние предназначены для решения узкоспециализированных задач, содержат относительно небольшой объем документов, и основной упор при их создании делается па развитие большого количества продукционных правил.

В четвертой главе представлена методика автоматизированного определения метаданных слабоструктурированных документов.

В § 4.1 изложен алгоритм автоматизированного извлечения метаданных из однородных слабоструктурированных документов (например, размещенных на одном сайге), которые имеют' однородную структуру. Алгоритм учитывает' информацию о гипертекстовой разметке обрабатываемых документов, при этом надо иметь в виду, что документ может не обладать xml-разметкой и не содержать метаданные в мета-теге, поэтому следует ориентироваться только на html-разметку.

Основанный на типичном для интеллектуальных информационных систем человеко-машинном взаимодействии, алгоритм частичной автоматизации процесса извлечения метаданных сводится к выполнению последовательных операций:

1) создание шаблона разметки для обрабатываемого сайта;

2) создание списка адресов, где расположены документы;

3) обработка документов;

4) поддержание актуальности информации.

Для того или иного конкретного сайта шаблон документа имеет вид Sh = (Title, Тадь, Tags, Reg, Sep),

где Title — название поля (выбираемое из стандартного набора элементов метаданных), Тадь и Таде — теги (последовательности символов), определяющие в программном коде каталогизируемого сайта соответственно начало и конец данного поля, Reg — регулярное выражение, определяющее символы данного поля (по умолчанию задается выражение, соответствующее произвольному набору символов, Sep — разделитель элементов множественного поля (употребляется лишь для полей, могущих содержать несколько значений).

Отличительной особенностью предложенного алгоритма автоматизированного извлечения метаданных от коммерческих пакетов является возможность получения недостающих метаданных из удаленных баз данных.

Важной особенностью данного алгоритма, описанной в § 4.2, является возможность автоматизированного определения таких важных (но далеко не всегда непосредственно наличиствующих) метаданных документа, как классификационные признаки (т.е. коды того или иного классификатора) и ключевые слова, с использованием удаленных библиографических баз и словарей удаленного доступа.

Для обращения к библиографической базе данных с целью получения классификационных признаков документа автоматически формируется строка запроса к серверу библиографической базы, например "Zentralblatt MATH", использующая в качестве параметров запроса уже извлеченные с веб-страницы журнала библиографические данные. При наличии сведений о запрошенном документе в базе данных сервер выдает

страницу с его описанием, на которой присутствуют, среди прочих библиографических данных, классификационные коды по классификатору М5С2000 и ключевые слова на английском языке. Обработка полученной страницы, то есть извлечение недостающих метаданных документа, производится по стандартному шаблону указанного выше типа.

После получения ключевых слов документа из англоязычной библиографической базы данных может возникнуть проблема их перевода на русский язык. Частичная автоматизация этого процесса основана на использовании словарей, доступных через Интернет, например словаря "Лингно" компании "Яндекс" посредством автоматического формирования строки запроса к удаленному словарю с последующей обработкой результатов запроса. При этом, так как количество возможных ключевых слов, относящихся к той или иной предметной области, как правило, не слишком велико, то прежде всего проверяется, не занесено ли уже ранее переводимое ключевое слово в англоязычную часть тезауруса предметной области. Таким образом, происходит процесс обучения системы: чем больше слов и словосочетаний переведено, тем меньше программа обращается к удаленному словарю через Интернет, так как уже переведенные слова и словосочетания заносятся в тезаурус.

Общая схема алгоритма автоматизированного определения метаданных слабоструктурированных документов представлена па рис. 1.

Сведения об иг1-алресе сайта 1

(Создание шаблона документа [

Создание списка адресов документов

Извлечение метаданных документов, формирование гтоисковьпс образов

I Установление святи документа) с персонами-авторами

Автома- . Лвтомагизиро-

Н тмческая (ванный перевод

: класте- ^ ключевых

. ризадия слов

+ гг:::-:г: Нет) Экспертная !

Успешна?, >- »4 классифи- 1

Занесение поискового обрата документа (включая классификационные признаки) в каталог

Выполняется: - экспертом

■ специалистом

■ тех. работником • автоматически

------ автоматически под

контролем эксперта

— . — . автоматически под

контролем специалиста

---аетоматнчески под

контролем тех. работники

Рис. 1. Алгоритм автоматизированного определения метаданных.

С § 4.3 описаны принципы и алгоритмы автоматизации процесса извлечения из текстов ключевых слов. Обычно при координатном индексировании научных текстов используется подход, основанный на извлечении одиночных ключевых слов (см.. например, обзор О.В.Песковой), что упрощает морфологический анализ, но имеет серьезные

теоретические недостатки: возможность ложной координации, ложных синтагматических связей и др.

Среди некоммерческих программных продуктов, решающих указанную задачу, можно назвать стимер компании "Яндекс", который, однако, анализирует текст только на синтаксическом уровне, позволяя извлекть словосочетания заданной структуры, но не проверяя принадлежность словосочетаний к тому или иному лексическому словарю. С другой стороны, алгоритмы проекта "Микрокосмос" (США), В.А.Тузова, В.А.Фомичева, И.С.Циликова и др., предназначенные для проведения семантического анализа текстов на уровне, близком к восприятию естественно-языковых текстов человеком, весьма сложны в практической реализации.

В работе описан разработанный алгоритм автоматического поиска и подсчета ключевых слов из заданного словаря, представляющих собой словосочетания сложной структуры, учитывающий морфологию русского языка. Для рассмотрения в качестве ключевых слов терминов-словосочетаний предложено использовать, наряду с традиционным индексом

- Р(х -

оригинальный индекс

АГ(г - Р1т -

где Лй, — номер текста, Рц — позиция слова в тексте, номер слова из лексического словаря, — номер термина, Р^ — позиция слова в термине.

Алгоритм построения индекса терминов включает следующие этапы:

1. Разбиение термина на отдельные слова.

2. Создание предварительного индекса, содержащего триады "номер термина" — "позиция слова в термине" — "слово в символьном представлении".

3. Добавление встретившихся неизвестных слов в лексический словарь библиотеки, где им присваиваются ид. номера.

4. Переработка индекса в формат "номер термина" — "позиция в тексте" — "номер слова из лексического словаря".

5. Сбор статистики о длинах терминов для реализации поиска и идентификации составных терминов.

6. Сбор статистики о количестве вхождений отдельных слов в термины дли оптимизации поиска путем исключения из рассмотрения терминов, заведомо отсутствующих в тексте.

Алгоритм построения индекса текстов аналогичен, но в нем отсутствует этап 3.

Алгоритм подсчета вхождений терминов в текст (или тексты) включает этапы:

1. Подсчет возможных комбинаций "текст" — "термин", основанный на статистике вхождения отдельных слов.

2. Нахождение всех потенциально возможных мест вхождения каждого термина в текст (тексты) на основе наличия хотя бы одного общего слова из лексического словаря. Позиция каждого потенциально возможного вхождения фиксируется.

3. Рассмотрение каждого из возможных мест вхождений с точки зрения соответствия термину в целом. Актуальность вхождения определяется наличием рядом с соответствующей позицией других слов, входящих в термин.

4. Исключение учета вхождений, поглощаемых более длинными вхождениями.

5. Сбор статистики вхождений для каждой пары "текст" — "термин".

В качестве основы базового лексического словаря программной библиотеки координатного индексирования использован свободно распространяемый словарь Ispell. Работа по генерагцги всех словоформ нового слова для пополнения словаря весьма трудоемка: для существительного — 12 словоформ, для прилагательного — 24 словоформы (многие словоформы будут повторяться). В распространенных текстовых процессорах и редакторах (Word, Writer, WinEdit) словари пополняются лишь конкретной вводимой словоформой.

Для автоматизации работы было построено веб-приложение, автоматически генерирующее все словоформы заданного слова (существительного или прилагательного) русского языка. В основе работы веб-приложения лежит алгоритм Г.Г.Белоногова, использующий разбиение слов языка на флективные классы, т.е. типы словоизменения, каждому из которых ставилась в соответствие система окончаний всех словоформ слова-представителя (основа, как правило, остается неизменной; в противном случае изменения основы контролируется вручную).

Множество всех флективных классов F можно представить как

«=1 ¡=1

где флективным классам существительных мужского рода одушевленных соответствует i ~ 1, существительных мужского рода неодушевленных — i = 2, существительных женского рода одушевленных — i = 3, существительных женского рода неодуигевлен-ных — г — 4, существительных среднего рода — i = 5, прилагательных — i = 6, при этом числа элементов в указанных надклассах образуют вектор I = (19,16,8,12,11,12).

Нетрудно видеть, что эти числа зачастую слишком велики для эффективной работы пользователя по выбору нужного класса, поскольку специалистами в области когнитивной психологии показано, что эффективный выбор возможен, если количество вариантов не превышает 7-9.

Для решения данной проблемы нами предложена модификация алгоритма Г.Г.Белоногова, состоящая в автоматическом анализе окончаний нормализованной словоформы внутри каждого надкласса с целью его автоматического разбиения на несколько подмножеств:

m, т*

= U-fy = U{/S->i=i'

3=1 j=l

что приводит к значительному уменьшению количества элементов, из которых предстоит сделать выбор, поскольку 1Х = (12,2,2,2,1), 12 = (10,3,3), 13 = (4,3,1), U = (6,4,2), Г5 = (5,5,1), 4 = (4,4,2,1,1).

При работе с новым словом эксперт устанавливает при необходимости его начальную форму и указывает его тип: независимое существительное, прилагательное или зависимое слово-дополнение в родительном падеже. Зависимое слово сразу добавляется в словарь, так как единственной формой слова (применительно к соответствующему контексту) является оно само. При выборе независимого существительного на следующем шаге необходимо указать его род и одушевленность. Для прилагательного дополнительные характеристики не указываются. Далее программа, автоматически проводит предварительный анализ окончания слова, отсеивая те классы, к которым данное слово заведомо принадлежать не может. После этого нужно выбрать флективный класс, которому соответствует слово. Для выбора предоставляется таблица возможных флективных классов, которые определяются словом-представителем и его несколькими характерными словоформами (рис. 2).

Вы ЯВСВИ СЖЖ0 КВДЮтиОПВЧМШв, ЧЯШ. речи КИрОГО Пф*ЯЯГК«Я1АМ.

. Ш' -ыф ф.-лим/л&ш'м хихтл. катарана лл* Н *■

И 'СИ жртаиий -ЭТрйДЖЙ :ИЙ :НЙ Я* и гего. дае

¡«Й >я* лжи >ые

Рис. 2. Выбор флекхишюш класса.

Количество объектов-альтернатив в подавляющем большинстве случаев доведено до рекомендуемого когнитивной психологией (около 9 альтернатив). Для существительных мужского рода ситуация неулучшаема (например, слова "волос", "голос" и "колос" относятся к разным флективным классам).

В алгоритме решения аналогичной задачи Б.А.Каневского классы словоформ определялись без учета теоретических исследований Г.Г.Белоногова путем непосредственного анализа типов окончаний. Это приводит к появлению более 10 тыс. классов для существительных и 2,5 тыс. классов для прилагательных, (к одному классу отнесены слова, у начальных форм которых совпадают 3 последние буквы), что делает данный алгоритм трудновоспроизводимым. Однако даже столь детальное разбиение не способно дать абсолютно точное различение слов по типу склонении, к тому же "эмпирический" характер вызывает определенные вопросы относительно полноты описания классов.

В пятой главе обсуждаются вопросы автоматизации процессов классификации и кластеризации электронных документов.

В § 5.1 изложена методика создания тезаурусов и онтологии на основе предметного указателя специализированных энциклопедий, которая обеспечивает высококва^ лифицированное описание предметной области с использованием надежно выверенных терминов, позволяя провести начальный, наиболее трудоемкий, этап построения онтологии с минимальным привлечением специалистов — экспертов в данной предметной области.

Методика, предложенная автором в 2003 году, имеет оригинальный характер. Создатели РуТез (Б.В.Добров и др., 2005 г.) также предложили использовать для составления тезауруса предметные указатели энциклопедий, но без механизма установления связей.

Блок-схема алгоритма представлена на рис. 3.

В качестве списка ключевых слов и словосочетаний для тезауруса предлагается использовать предметный указатель специализированной энциклопедии (или нескольких энциклопедий). В качестве дескрипторов (т.е. терминов, являющихся именами классов близких по смыслу понятий) полагаются названия статей энциклопедии, а связанными с ними по смыслу считаются слова из предметного указателя, встречающиеся в соответствующих статьях. Основным преимуществом такого метода является то, что для установления связей между терминами не требуется быть экспертом (и даже специалистом) в данной предметной области. Суть метода состоит в следующем. Пусть в некотором томе содержится к статей, тогда номера их начальных страниц образуют неубывающую последовательность (пх, щ,..., щ). Если 1-я статья занимает несколько страниц (тц-ц — щ > 1), то термины, бесспорно к ней относящиеся (находящиеся на страницах п^ таких, что щ < п^ < п*.ц), связываются с дескриптором автоматически,

что значительно сокращает объем ручной работы. Если же 0 < п^г — п, < 1, то пользователю предлагаются еще не спязаттные на данный момент термины со страницы щ (и, при необходимости, П;+1) для отсеивания "избыточных" терминов вручную.

-автоматически

Рис. 3. Алгоритм построения онтологии.

Следующий этап создания тезауруса и онтологии — классификация дескрипторов в соответствии с разделами данной предметной области. С целью экономии трудозатрат экспертов на первом этапе работы возможно ограничиться классификацией дескрипторов, при этом для классификации следует использовать, по возможности, разделы классификатора максимально низкого уровня. После того, как дескриптор будет классифицирован, связанным с ним ключевым словам приписывается тот же классификационный индекс, что и дескриптору.

Наконец, проводится определение типа термина в соответствии с рекомендациями Хйез, что позволяет существенно упростить работу с онтологией.

В § 5.2 приведены теоретические основы поиска документов "по аналогии', т.е. нахождения по данному множеству документов класса схожих по содержанию документов. Указанная задача рассматривается применительно к документам научной тематики, сообщениям на новостных лентах и художественным произведениям. Сравнительный анализ соответствующих алгоритмов позволил сделать вывод о том, что для документов научной тематики процедуру кластеризации целесообразно проводить на основе меры сходства, притом в качестве координат метрики, вводимой на множестве документов, используются основные атрибуты из библиографического описания: авторы; ключевые слова; термины из тезауруса предметной области, входящие в аннотацию.

Количественная характеристика меры сходства определяется на множестве документов D как ц-.DxD^ [0,1], причем функция ц в случае полного сходства принимает значение 1, в случае полного различия — 0. Вычисление меры сходства между документами di и <¿2 осуществляется по формуле вида

М<*1> di) = £ <*з),

где г — номер элемента (атрибута) библиографического описания, сщ — весовые коэффициенты, ^ai = 1, ¡hidudi) — мера сходства по г-му элементу. Если шкалы — номинальные, то мера сходства по г-й шкале определяется следующим образом: если значения г-х атрибутов документов совпадают, то мера близости равна 1, иначе — 0. Если значения атрибутов составные, то щ = гщ/niо, где ni0 = max{nio(cîi),THo(cÎ2)}, 7ijo(dj) — общее количество элементов, составляющих значение г-го атрибута документа dj, Пц — количество совпадающих элементов.

Для непосредственной процедуры нахождения объектов, аналогичных объектам из заданного множества, необходимо задать пороговое значение меры сходства г £ (0,1). Если заданное множество D, состоит из одного объекта d,, то при ¡J,(d,, dj) < г делается вывод, что объект dj аналогичен заданному, в противном случае считается, что аналогия отсутствует. Ситуация осложняется, если множество D, содержит более одного объекта. Тогда критерием аналогичности объекта dj элементам множества D, служит неравенство fi(-D», dj) < г, в котором dj) — расстояние от объекта dj до множества D, (обычно под этим подразумевается минимум расстояний от объекта dj до элементов множества D,. хотя иногда в качестве fi(D„dj) целесообразно рассматривать расстояние от объекта dj до определенного тем или иным способом "центра" множества D,). Независимо от количества элементов в множестве D„, возможно задание "градаций аналогичности", определяемых посредством набора чисел {г(}, i = 1,... ,п, где г* < п при к < I. Если Гк < n(D,,d{) < а ri < ¡i{D*,d2) < r1+i при fc < i, то считается,

что объект (¿i более схож с элементами множества D., чем объект d2. Введение градам ций аналогичности используется, например, для установления приоритета просмотра документов, найденных в процессе информационного поиска.

Указанные процедуры поиска аналогичных документов могут быть снабжены дополнительными условиями, связанными, например, с исключением из поисковой выдачи соответствующих документов при реализации ситуации "несимметричного сходства", когда по тексту аннотации следует выдавать полнотекстовую версию статьи, но, разумеется, не наоборот.

В § 5.3 излагается методика кластеризации научных документов на основании меры сходства их библиографических описаний. Отличительные особенности предлагаемой методики заключаются в следующем:

- использование нескольких шкал: авторы; ключевые слова (авторские); текст аннотации, из которого извлекаются ключевые термины, — что особенно важно при работе не с полными текстами документов, а с аннотациями (обычно используется только одна шкала: извлеченные из текста ключевые слова — М.Е.Кондратьев, О.В.Пескова и др.);

- в качестве извлеченных ключевых терминов рассматриваются словосочетания;

- используется апостериорный выбор продукционных правил для определения весовых коэффициентов при шкалах.

Для определения меры сходства использован алгоритм, основанный на функции конкурентного сходства или FRiS-функции (Н.Г.Загоруйко, 2007): решение о принад-

ложности документа d к первому кластеру принимается не в том случае, когда расстояние п до этого кластера "мало", а когда оно меньше расстояния Г2 до конкурирующего кластера. Для вычисления меры конкурентного сходства, измеренной в абсолютной шкале, используется нормированная величина Fu = (гг — ri)/(r2 + ï"i).

Тестирование алгоритма проводилось на электронной базе данных "Сибирского математического журнала", содержавшей библиографические описания статей журнала, вышедших в период с 2000 ira 2005 годы (порядка 700 записей). В качестве единственной шкалы для вычисления меры на пространстве документов использовались коды классификатора. MSC2000 (обычно документу приписано 3 или более кодов). Поскольку совпадение данных кодов для группы документов является объективным критерием совпадения тематики данных документов, такую меру можно считать образцовой. Если коды классификатора центроида кластера содержались в числе кодов классификатора 2-го уровня данного документа, то мы полагали, что документ отнесен к кластеру правильно.

Были проведены сравнительные расчеты по широко известному жадному алгоритму а FîtiS-алгоритму. На рис. 4 отображен состав полученных кластеров. По горизонтальной оси отмечены номера кластеров, по вертикальной — количество документов в кластере. В качестве критерия принадлежности публикации к кластеру использовался его код классификатора MSC2000. Погрешность классификации в первом случае составила 12 %, во втором 4 %.

Рис. 4. Сравнение жадного и ГШЭ алгоритмов.

Далее при задании меры был принят во внимание тот факт, что значения весовых коэффициентов в формуле вычисления меры сходства определяются предполагаемой апостериорной достоверностью данных соответствующей шкалы, и в определенных случаях один из коэффициентов может Сыть увеличен с пропорциональным уменьшением остальных.

Эксперимент на коллекции статей "Сибирского математического журнала", в котором устанавливалось наибольшее сходство с результатом кластеризации по мере, базирующейся па кодах классификатора МЭС2000, позволил получить апостериорно выбираемые правила для определения весовых коэффициентов на основании предполагаемой достоверности данных:

1) если каждый из документов и имеет более двух авторов и, как минимум, 2/3 из них совпадают, то коэффициент при атрибуте "авторы" равен 1;

2) если каждый из документов и ¿2 содержит более трех ключевых слов и, как минимум, 3/4 этих слов совпадают, то коэффициент при атрибуте "ключевые слова" равен 1;

3) если каждый из документов <¿1 и <¿2 содержит более четырех ключевых терминов в аннотации и, как минимум, 3/5 этих терминов совпадают, то коэффициент при атрибуте "аннотация" равен 1;

4) если условия ни одного из правил 1-3 не выполнены, то коэффициент при атрибуте "авторы" равен 0,2, а при атрибутах "ключевые слова" и "аннотация" равен 0,4.

Интересно отметить, что эти правила применимы как для РШЭ-алгоритма, так и для жадного алгоритма.

В шестой главе излагается структура внешнего представления научной и научно-организационной информации.

Предложена методика задания структуры представления информации на основании многомерной классификации.

Поскольку на практике большинство рядовых пользователей испытывает затруднения в самостоятельном построении запросов более сложных, нежели простой контекстный или атрибутивный поиск, постольку базовая структура представления информации должна отвечать такой совокупности заранее сформулированных информационных запросов (например, содержать соответствующие гиперссылки), которая в состоянии удовлетворить основные информационные потребности пользователей системы.

Разработана базовая структура представления информации на основании многомерной (т.е. не сводящаяся только к предметной) классификации, классификация документов, позволяющая включать в метаописание документа некий многомерный набор классификационных признаков.

Алгоритм задания структуры состоит в следующем.

Любой документ сЦ каталога системы представляется как с^ =< тп{'к >. Рассмотрим подмножество метаданных Мс, определяющее набор классификационных признаков документов. Для фиксированного элемента метаданных М3, где М' 6 Мс, множество документов разбивается на классы эквивалентности, соответствующие различным значениям этого элемента метаданных.

Будем считать два экземпляра сущностей толерантными, если у них совпадает значение хотя бы одного из элементов метаданных, входящих в Мс Каждое такое значение порождает класс толерантности. Рассмотрим всевозможные сочетания значений элементов метаданных, входящих в Мс- Множества документов, обладающие одинаковым набором значений, суть ядра. Ядра служат классами эквивалентности на множестве документов.

Выделим подмножество элементов метаданных М* = М'к С Мс, опре-

деляющее для данной предметной области важнейшие характеристики документов (или, в зависимости от специфики задачи, описываемых документами сущностей), при этом М'к = Тогда ядра толерантности, задающие базовую структуру представления информации, суть элементы декартова произведения ИМ" = Мх Мх ■■■ х МТем самым поиск интересующего пользователя класса документов сводится к выбору соответствующего элемента ..., т*) 6 ПМ", т. е. к отображению Б* : ПМ* —> £), а предварительная классификация документов — к обратному отображению С*: Р —» ПМ*.

Разумеется, обычный атрибутивный поиск описывается аналогичным образом, однако элементы метаданных М'к — важнейшие характеристики документов — выбираются так, что количество возможных значений для них (или, по крайней мере, для большинства из них) достаточно невелико, что позволяет предоставить пользователю совокупность заранее сформулированных информационных запросов (например, соответствующие гиперссылки), которая в состоянии удовлетворить основные информационные потребности.

Таким образом, базовая структура представления информации в каталоге описывается посредством задания подмножества метаданных, определяющего набор классификационных признаков, и сочетаний значений этих метаданных.

Показано, что для коллекции "Персоны" целесообразны следующие классификаторы: 1) тематический, 2) хронологический, 3) географический; для коллекции "Публикации": 1) тематический, 2) жанровый, 3) хронологический; для коллекции "Юридические документы": 1) уровень издавшего документ органа, 2) источник права (ветвь власти), 3) хронология.

В седьмой главе описана практическая реализация программной системы информационного обеспечения научной деятельности: приведена функциональная схема программной системы (рис. 5), компоненты которой реализованы на базе технологии LAMP (платформа Linux, веб-сервер Apache, cepRep баз данных MySQL, язык программирования PHP), а также описано практическое применение данной системы и ее отдельных компонентов.

-• Создание структуры -^-Занесение данных -> Запрос

Рис. 5. Функциональная схема программной системы (1 - хранилище данных; 2 - блок извлечения метаданных из веб-документов; 3 - веб-интерфейс администрирования систел1ы; 4 ~ веб-интерфсйс администрирования данных; 5 - иеб-интерфейс пользователя).

В заключении диссертации сформулированы основные результаты и выводы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

1. Проведено исследование информационных потребностей научного сообщества в свете изменений, вызванных распространением интернет-техцологий, а также новыми принципами функционирования и финансирования российской науки, основанное на сравнении характеристик информационных потребностей, изучении интеграционных проектов СО РАН в области информатики и исследовании интернет-сайтов.

2. Обоснована методология комплексного изучения интернет-сайтов, которая предусматривает их рассмотрение в трех аспектах: как источник данных, как техническое средство обработки и распространения информации и как социокультурный феномен.

3. Предложена модель информационного обеспечения деятельности научного сообщества, включающая научно-организационную и научно-инновационную деятельность.

4. Разработана отвечающая основным системным принципам модель информационной системы, элементами которой являются документы (целостные информационные объекты, снабженные метаданными).

5. Разработана модель направленных связей между документами, задающая на множестве документов бинарные отношения с дополнительными атрибутами, которая дает возможность описывать различные аспекты межсущностных отношений, позволяя представлять сложные документы, когда один документ является частью другого, и избегать дублирования информации.

6. Разработана структура логических компонентов интеллектуальной системы, базовыми объектами которой являются каталог, объединяющий поисковые образы исходных документов, и онтология предметной области.

7. Предложена базовая структура представления информации на основании многомерной классификации, отвечающая совокупности заранее сформулированных информационных запросов, удовлетворяющей основные информационные потребности пользователей системы.

8. Разработана методика создания тезаурусов и онтологии на основе предметного указателя специализированных энциклопедий.

9. Исследованы принципы и предложены алгоритмы автоматизации основных этапов научно-информационного процесса с участием слабоструктурированных документов (включая извлечение метаданных, определение ключевых слов, классификацию и кластеризации), причем программные средства, реализующие эти алгоритмы, функционируют как сетевые приложения.

10. Результаты исследования внедрены в Информационно-справочной системе СО РАН, что позволило повысить качество ее функционирования, а также использованы в процессе создания ряда систем информационного обеспечения научной деятельности: Электронного атласа биоразнообразия животного и растительного мира Сибири, Электронной библиотеки МаЛТгее, тезауруса по гетерогенному катализу, сайта журнала "Вычислительные технологии", благодаря чему была достигнута существенная экономия трудозатрат, в т.ч. специалистов высшей кваг-лификации.

11. Результаты использованы в учебном процессе кафедры математического моделирования НГУ, кафедры вычислительных технологий НГТУ и кафедры прикладной математики и кибернетики СибГУТИ.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

ПУБЛИКАЦИИ В ЖУРНАЛАХ, РЕКОМЕНДОВАННЫХ ВАК:

1. БарахнинВ.Б. Разработка тезауруса предметной области "Математика" //Вычислительные технологии, т. 8, Региональный вестник Востока, № 3 (Hi), совместный выпуск.

- 2003. — Часть 1. - С. 111-115.

2. Барахнин В,В., Федотов A.M. Принципы структурирования сайтов информационной системы научного сообщества (на примере сайта Совета научной молодежи СО РАН) // Вычислительные технологии, т. 9, Вестник КазНУ им. аль-Фараби, серия: математика, механика, информатика, 3 (42), совместный выпуск. — 2004. — Часть I. — С. 254-259.

3. Шокин Ю.И., Федотов A.M., Барахнин В.Б. Особенности организации системы управления веб-коптентом сайтов информационной поддержки инновационной деятельности // Вычислительные технологии. — 2005. — Т. 10. — Специальный выпуск.

- С. 122-128.

4. Барахнин В.В., Леонова Ю.В. Информационная модель отношений между документами в информационной системе // Вычислительные технологии. — 2005. — Т. 10.

- Специальный выпуск. — С. 129-137.

5. Барахнин В.В., Леонова Ю.В., Федотов A.M. К вопросу о формулировке требований для построения информационных систем научно-организациоггной направленности // Вычислительные технологии. — 2006. — Т. 11. — Специальный выпуск. — С. 52-58.

6. Федотов A.M., Барахнин В.В., Гуськов А.Е., Жижимов О.Л., Клименко O.A., Леонова Ю.В., Рычкова Е.В., Тундукпаев Ж.С., Шабальников И.В.

Информационно-справочная система СО РАН // Вычислительные технологии. — 2006.

- Т. 11. — Специальный выпуск. — С. 88-94.

7. Федотов A.M., Барахнин В.Б., Гуськов А.Е., Молородов Ю.И. Распределенная информационно-аналитическая среда для исследований экологических систем // Вычислительные технологии. — 2006. — Т. 11. — Специальный выпуск. — С. 113—125.

8. Барахнин В.Б., Федотов A.M. Информационная система: взгляд на понятие // Вестник НГУ. Сер.: Информационные технологии. — 2007. — Т. 5. — Выи. 2. — С. 1219.

9. Leonova Yu.V., Barakhnin V.B., Fedotov A.M. On the problem of modeling of the horizontal relations between documents // Вычислительные технологии. — 2007. — Т. 12.

- № 1. - С. 3-12.

10. Барахнин В.В., Нехаева В.А. Технология создания тезауруса предметной области на основе предметного указателя энциклопедии // Вычислительные технологии. — 2007. — Т. 12. — Специальный выпуск 2. — С. 3-9.

11. Барахнин В.Б., Федотов A.M. Ресурсы сети Интернет как объект научного исследования // Известия вузов. Проблемы полиграфии и издательского дела. — 2008. — № 1. — С. 70-77.

12. Барахнин В.В., Нехаева В.А., Федотов A.M. О задании меры сходства для кластеризации текстовых документов // Вестник НГУ. Сер.: Информационные технологии. — 2008. — Т.6. — Вып. 1. — С. 3-9.

13. Витяев Е.Е., Ковалерчук Б.К., Федотов A.M., Барахнин В.Б., Белов С.Д., Дурдин Д.С., Демин A.B. Обнаружение закономерностей и распознавание аномальных событий в потоке данных сетевого трафика // Вестник НГУ. Сер.: Информационные технологии. — 2008. — Т. б. — Вып. 2. — С. 57-68.

14. Барахнин В.В., Федотов A.M. Исслсдовашю информационных потребностей научного сообщества для построения информационной модели описания его деятельности // Вестник НГУ. Сер.: Информационные технологии. — 2008. — Т. б. — Вып. 3. — С. 48-59.

15. Барахнин В.В., Федотов A.M. Уточнение терминологии, используемой при описании интеллектуальных информационных систем, на основе семиотического подхода // Известия вузов. Проблемы полиграфии и издательского дела. — 2008. — № 6 — С. 73-81.

16. Федотов A.M., Барахнин В.Б. Проблемы поиска информации: история и технологии // Вестник НГУ. Сер.: Информационные технологии. — 2009. — Т. Т. — Вып. 2. — С. 3-17.

17. Рубцов Д.Н., Барахнин В.Б. Выявление дубликатов в разнородных библиографических источниках // Вестник НГУ. Сер.: Информационные технологии. — 2009. — Т. 7. - Вин. 3. - С. 80-93.

18. Федотов A.M., Барахнин В.Б. К вопросу о поиске документов "по аналогии" // Вестник НГУ. Сер.: Информационные технологии. — 2009. — Т. 7. — Выи. 4. — С. 3-14.

19. Барахнин В.Б., Ткачев Д.А. Кластеризация текстовых документов на основе составных ключевых термов // Всстпик НГУ. Сер.: Информационные технологии. — 2010.

- Т. 8. - Выи. 2. - С. 5-14.

20. Барахнин В.В., Рубцов Д.Н. Сравнительные особенности используемых в Рунете информационных моделей описания деятельности крупных организаций и анализ их практической реализации на сайтах научной тематики // Известия вузов. Проблемы полиграфии и издательского дела. — 2010. — X« 4. — С. 97-107.

21. Шокин Ю.И., Федотов A.M., Барахнин В.Б. Технология создания программных систем информационного обеспечения научной деятельности, работающих со слабоструктурированными документами // Вычислительные технологии. — 2010. — Т. 15.

- № 6. - С. 111-125.

ПУБЛИКАЦИИ В ДРУГИХ ИЗДАНИЯХ:

22. Барахнин В.Б., Федотов A.M. Методика построения информационно-справочной системы но истории математической науки // Электронные библиотеки. — 2007. — Т. 10. — Вып. 1. — http://www.elbib.ru/index.phtml?page=eIbib/rus/journal/2007/partl/BF.

23. Барахнин В.Б. Разработка концепции пользовательского интерфейса информационной системы "Web-ресурсы математического содержания" // VIII Международная конференция по электронным публикациям "EL-Pub2003" — Новосибирск, 2003. — Электронная публикация, № гос. регистрации 3521. — http://www.nsc.ru/ws/elpub2003/6197/.

24. Федотов A.M., Барахнин В.Б., Бычков И.В., Жижимов О.Л., Мазов H.A., Москвичев В.В. Концепция создания виртуального музея СО РАН // VIII Международная конференции по электронным публикациям "EL-Pub2003". — Новосибирск, 2003. — Электронная публикация, № гос. регистрации 3521. — http://www-sbras.nsc.ru/ws/elpub2003/6155/rep6155.pdf

25. Barakhnin V., Klimenko О. Systematization and the Search of Mathematical Web-Resources // Proceedings of the Second IASTED International Multi-Conferences on Automation, Control, and Information Technology. Software Engineering. — Novosibirsk: ACTA Press, 2005. - P. 81-84.

26. Барахнин В.В., Бычков И.В., Гуськов А.Е., Жижимов О.Л., Клименко O.A., Ламин В.А., Леонова Ю.В., Мазов H.A., Москвичев В.В., Молородов Ю.И., Пищик В.Н., Потапов В.П., Рычкова Е.В., Фазлиев А.З., Федотов A.M., Хо. люшкин Ю.П., Шабальников И.В., Шокин Ю.И. Распределенный виртуальный

музей Сибирского отделения РАН // Труды Первой международной конференции "Системный анализ и информационные технологии". — Переславль-Залесский, 2005. — Т. 1.

- С. 41-45.

27. Shokin Yu.I., Leonova Yu.V., Barakhnin V.B., Fedotov A.M. Concerning the problem of work up the model of horizontal relations between the documents ill the information systems of scientific community //Proceedings 3rd International Conference on Cybernetics and Information Technologies, Systems and Applications (CITSA 200G). — Orlando, USA, 200G. - V. 3. — P. 112-11G.

28. IHokiih Ю.И., Барахнин В.Б., Гриншяков Б.Ю. Методология создания системы информационной поддержки научно-инновационной деятельности региона // Второй форум возрождения китайской северо-восточной старой промышленной базы: научно-техническое сотрудничество Китая и СНГ. Сборник докладов. — Китай, Харбин, 2006.

— С. 179-183 па кит. яз., с. 184-100 na рус. яз.

29. Барахнин В.Б., Ведерников В.В. Автоматизированная каталогизация электронных журнальных публикаций // Труды международной конференции "Вычислительные и информационные технологии в науке, технике и образовании". — Казахстан, Павлодар, 2006. — Т. I. — С. 209-214.

30. Барахнин В.Б., Григорьева Я.И. Биографо-библиографический справочник "Математика в личностях" // Труды международной конференции "Вычислительные и информационные технологии в науке, технике и образовании". — Казахстан, Павлодар, 2006. - Т. I. - С. 220-227.

31. Барахнин В.Б., Годицкий A.B. Концепция интегрированного каталога интернет-ресурсов научной тематики // Труды международной конференции "Вычислительные и информационные технологии в науке, технике и образовании". — Казахстан, Павлодар, 2006. - Т. I. - С. 215-219.

32. Барахнин В.В., Куиерштох A.A. Алгоритм координатного индексирования электронных научных документов // Труды международной конференции "Вычислительные и информационные технологии в науке, технике и образовании". — Казахстан, Павлодар, 2006. — Т. I. — С. .228-232.

33. Барахнин В.Б., Маценко К.С. Информационная модель системы поддержки инновационной деятельности // Труды международной конференции "Вычислительные и информационные технологии в науке, технике и образовании". — Казахстан, Павлодар, 2006. - Т. I. - С. 233-242.

34. Барахнин В.Б., Клименко O.A., Ковалёв С.П. Сбор и систематизация информации для портала математических ресурсов MathTree // Труды международной конференции "Вычислительные и информационные технологии в науке, технике и образовании". — Казахстан, Павлодар, 2006. — Т. II. — С. 381-389.

35. Барахнин В.Б., Федотов A.M. Информационные потребности научного сообщества как основа построения информационной модели описания его деятельности // Труды Третьей международной конференции "Системный анализ и информационные технологии". — Звенигород, 2009. — С. G77-G89.

36. Барахнин В.Б. Разработка базы данных "Web-ресурсы математического содержания" //' Труды Четвертой Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" (RCDL'2002). — Дубна: ОИЯИ. - 2002. - Том 2. - С. 316-318.

37. Барахнин В.Б., Федотов A.M. Построение тезауруса для информационно-поисковой системы "Web-ресурсы математического содержания" // Инфокоммуника-циопные и вычислительные технологии и системы. Материалы Всероссийской конференции. — Улан-Удэ: БурГУ, 2003. — С. 21-23.

38. Шокин Ю.И., Ламин В.А., Федотов A.M., Барахнин В.В., Жижимов О.Л., Мазов H.A., Пищик Б.Н., Покровский H.H. Распределенная информационная

оисн'ма "Виртуальный музей Науки и техники СО РАН" // Труды Пятой всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" (RCDL'2003). — СПб.: НИИ химии СПбГУ, 2003. — С. 112— 126.

39. Шокин Ю.И., Федотов A.M., Клименко О.А., Леонова Ю.В., Гуськов А.Е., Барахнин В.Б. О структуре и содержательном наполнении информационной системы СО РАН // Труды X Байкальской Всероссийской конференции "Информационные и математические технологии и пауко, технике и образовании". — Иркутск, 2(145. —

С. 7-12.

40. Барахнин В.В., Леонова Ю.В. Информационная модель горизонтальных связей между документами на основе бинарных отношений с дополнительными атрибутами // Труды Всероссийской научной конференции "Научный сервис в сети Интернет: технологии распределенных вычислений". — Новороссийск, 2005. — С. 231-234.

41. Барахнин В.В., Леонова Ю.В. Применение модели направленных связей между документами для построения информационных систем научного сообщества // Труды Седьмой Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" (RCDL'2005). — Ярославль, 2005. - С. 200-207.

42. Леонова Ю.В., Барахнин В.В. Разработка информационной модели отношений и тематических связей между документами информационной системы научного сообщества // Материалы Девятой Всероссийской научно-практической конференции "Проблемы информатизации региона" (ПИР-2005). — Красноярск, 2005. — Т. 1.— С. 109-114.

43. Барахнин В.В., Леонова Ю.В., Федотов A.M. Системные принципы для построения информационных систем научно-организационной направленности // Труды Всероссийской научной конференции "Научный сервис в сети Интернет: технологии параллельного программирования". — Новороссийск, 2006. — С. 145—148.

44. Барахнин В.В., Ведерников В.В. Алгоритм автоматической каталогизации статей, опубликованных в электронных версиях научных журналов // Труды Всероссийской научной конференции "Научный сервис в сети Интернет: технологии параллельного программирования". — Новороссийск, 2006. — С. 277-279.

45. Барахнин В.В., Федотов A.M. О понятии "информационная система" в свете современных информационных технологий // Труды VI Всероссийской научно-практической конференции "Инновационные недра Кузбасса. IT-технологии". — Кемерово, 2007. — С. 139-144.

46. Барахнин В.В., Федотов A.M., Шокин Ю.И. Проблемы построения информационно-поисковых систем общего назначения // Труды VI Всероссийской научно-практической конференции "Системы автоматизации в образовании, науке и производстве". — Новокузнецк, 2007. — С. 35—39.

47. Барахнин В.Б., Нехаева В.А., Федотов A.M. Методика отбора публикаций из библиографических баз данных на основании меры сходства // Материалы Всероссийской конференции с международным участием "Знания - Онтологии - Теории" (ЗОНТ-07). — Новосибирск, 2007. - Т. 2. — С. 88-94.

48. Барахнин В.В., Григорьева Я.И., Федотов A.M. Использование тезауруса предметной области для построения информационно-справочных систем по истории науки // Материалы Всероссийской конференции с международным участием "Знания - Онтологии - Теории" (30HT-07). - Новосибирск, 2007. - Т. 2. - С. 95-100.

49. Барахнин В.В., Федотов A.M. Особенности информационно-поисковых систем общего назначения // Труды Всероссийской научной конференции "Научный сервис в сети Интернет: многоядерный компьютерный мир". — Новороссийск, 2007. — С. 340344.

50. Барахнин В.Б., Федотов A.M. Методологические подходы к построению информационно-справочных систем по истории науки // Труды Девятой Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" (RCDL'2007). — Псреславль-Залесский, 2007. — С. 84-88.

51. Федотов A.M., Барахнин В.Б., Гуськов А.Е., Леонова Ю.В. Построение информационной системы научного сообщества на основе интеграции разнородных коллекций ресурсов // Сборник тезисов постерных докладов Девятой Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" (RCDL'2007). — Персславль-Залесский, 2007. — С. 111-117.

52. Барахнин В.Б., Нехаева В. А., Федотов A.M. О задании меры сходства для классификации документов из библиографических баз данных // Труды VII Всероссийской научно-практической конференции "Инновационные недра Кузбасса. IT-технологии". — Кемерово, 2008. - С. 219-225.

53. Барахнин В.Б., Жижимов О.Л., Степанов Ю.Ю., Федотов A.M. LDAP-каталог организации как ядро корпоративной распределенной информационной системы // Труды VII Всероссийской научно-практической конференции ''Инновационные недра Кузбасса. IT-технологии". — Кемерово. 2008. — С. 226-232.

54. Шокин Ю.И., Барахнин В.Б., Гуськов А.Е., Клименко O.A., Леонова Ю.В., Рычкова Е.В., Шабальников И.В. Единая информационная среда научной организации на примере ИВТ СО РАН // Труды VII Всероссийской научно-практической конференции "Инновационные недра Кузбасса. IT-технологии". — Кемерово, 2008. — С. 271-276.

55. Барахнин В.Б., Федотов A.M. Проблемы технологий создания систем смысловой обработки данных // Труды Десятой Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" (RCDL'2008). Дубна, 2008. - С. 39-44.

56. Рубцов Д.Н., Барахнин В.Б. О возможности борьбы с дубликатами при запросах к разнородным библиографическим источникам // Труды Одиннадцатой Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" (RCDL'2009). — Петрозаводск, 2009. — С. 293-298.

57. Барахнин В.Б., Ткачев Д.Н. Классификация математических документов с использованием составных ключевых терминов // Материалы Всероссийской конференции с международным участием "Знания - Онтологии - Теории" (ЗОНТ-09). — Новосибирск, 2009. - Т. 1. - С. 16-23.

Автореферат:

Формат 60*84 1/16,1,5 п. л. Тираж 100 экз. 3аказ№633. 30.11.2010

Отпечатано ЗАО РИЦ «Прайс-курьер» ул. Кутателадэе, 4г, т. 330-7202

Оглавление автор диссертации — доктора технических наук Барахнин, Владимир Борисович

Введение.

Глава 1. Теоретические основы создания интеллектуальных информационных систем.

§1.1. Уточнение используемой терминологии на основе семиотического подхода.

§ 1.2. Особенности научно-информационного процесса с участием интернет-документов.

§ 1.3. Методология изучения интернет-сайтов

Выводы к главе 1.

Глава 2. Анализ информационных потребностей научного сообщества.

§ 2.1. Основные характеристики информационных потребностей в сфере науки.

§ 2.2. Исследование информационных потребностей коллективных пользователей — научных учреждений СО РАН.

§ 2.3. Информационная модель описания деятельности научного сообщества.

Выводы к главе 2.

Глава 3. Структура основных компонентов программной системы.

§ 3.1. Формулировка требований к программной системе.

§ 3.2. Модель информационной системы.

§ 3.3. Модель направленных связей между документами.

§ 3.4. Структура логических компонентов программной системы.'.

Выводы к главе 3.

Глава 4. Извлечение метаданных из слабоструктурированных документов.

§ 4.1. Автоматизация процесса извлечения метаданных из слабоструктурированных документов

§ 4.2. Автоматизация процесса получения метаданных документов с использованием удаленных библиографических описаний.

§ 4.3. Автоматическое извлечение из документов ключевых слов.

Выводы к главе 4.

Глава 5. Автоматизация процесса классификации и кластеризации слабоструктурированных документов

§ 5.1. Автоматизированная технология построения тезаурусов и онтологий.

§ 5.2. Теоретические основы поиска документов "по аналогии".

§ 5.3. Кластеризация научных документов на основании меры сходства.

Выводы к главе 5.

Глава 6. Структуры представления научной и научно-организационной информации.

§ 6.1. Задание структуры представления информации на основании многомерной классификации.

§ 6.2. Структура информационно-справочной системы по истории науки (на примере математики).

§ 6.3. Структуры представления информации о деятельности научного сообщества (на примере СО РАН).

§ 6.4. Структуры представления информации о научно-инновационной деятельности.

Выводы к главе 6.

Глава 7. Практическая реализация программной системы информационного обеспечения научной деятельности.

§ 7.1. Функциональная схема программной системы.

§ 7.2. Практическое использование результатов исследований

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Барахнин, Владимир Борисович

Актуальность исследования. Проблема доступа к информации является одной из основных проблем, возникающих в деятельности научного исследователя. Любой научный процесс порождает огромные объемы данных, и работать с ними становится все сложнее по мере того, как гигабайты данных превращаются в терабайты. Так, еще в начале 1960-х годов американский историк и социолог науки Д. де Солла Прайс на основании исследований развития науки в течение последних 200 лет выявил следующую эмпирическую закономерность [265]: любой достаточно большой сегмент науки в нормальных условиях растет экспоненциально, то есть любые параметры науки за определенный промежуток времени удваиваются. Эта закономерность получила название закона экспоненциального роста науки. Отсюда следует необходимость разработки и создания новых инструментальных средств и алгоритмов для анализа этих данных, что отражено, в частности, и в новом Уставе Российской академии наук [186], согласно которому одной из задач деятельности РАН является информационное обеспечение научных исследований, а также создание и развитие на территории России научно-информационных сетей, баз и банков данных.

Важность комплексного исследования проблем, связанных с информационным обеспечением научной деятельности, была осознана отечественным научным сообществом еще в начале 1950-х годов, когда по представлению Академии паук СССР был создан Институт научной информации, ныне Всероссийский институт научной и технической информации (ВИНИТИ). Книги сотрудников этого института "Основы научной информации" [125], "Основы информатики" [124], "Научные коммуникации и информатика" [123] заложили основы информатики как науки о структуре и свойствах научной информации, а также о закономерностях научно-информационной деятельности, а монография "Инфосфера: Информационные структуры, системы и процессы в науке и обществе" [3] отразила достижения и проблемы информатики по состоянию на середину 1990-х годов.

Однако происшедшее за последние 10-15 лет бурное развитие высоких технологий в области передачи и обработки информации, в частности, создание современных телекоммуникационных систем (прежде всего интернета), привело к появлению принципиально новых возможностей организации практически всех этапов научно-информационного процесса, что в свою очередь обусловило качественный рост информационных потребностей научного сообщества, ибо "потребности социальных субъектов (личностей, социальных групп). зависят от уровня развития данного общества, а также от специфических социальных условий их деятельности" [229].

Кроме того, за указанный период времени в России произошло изменение принципов функционирования и финансирования науки, что также не могло не сказаться на характере информационных потребностей ученых.

Следовательно, возникает необходимость комплексного анализа информационных потребностей научного сообщества с учетом влияния как новых возможностей, открывшихся благодаря революции в области информационных технологий, так и изменившихся условий функционирования пауки.

Разумеется, ни в коей мере нельзя полагать, что классические способы удовлетворения информационных потребностей посредством получения информации на бумажных носителях, общения на конференциях и т.п. ушли в прошлое, однако наиболее перспективным направлением развития информационного обеспечения научной деятельности являются все-таки информационные технологии. В данном исследовании мы будем вести речь только о тех способах удовлетворения информационных потребностей научного сообщества, которые базируются на электронных технологиях. В рамках указанного подхода основным инструментом информационного обеспечения научной деятельности являются информационные системы, т.е. системы обработки данных о какой-либо предметной области [173].

В настоящее время научные сообщества наиболее развитых стран и регионов мира обладают достаточно мощными информационными системами. Так, в Европе функционирует интегрированная система ERGO [248], являющаяся частью проекта CORDIS [243] (об используемых в проекте стандартах см., например, [240]). Среди американских разработок своими масштабами выделяется информационная система Библиотеки конгресса США [259]. К числу наиболее крупных и востребованных научным сообществом отечественных информационных систем относятся Единое научное информационное пространство (ЕНИП) РАН [79], Информационная система "База данных организаций и сотрудников СО РАН" [7], "Информика" [731, Университетская информационная система РОССИЯ [185], Научная электронная библиотека eLIBRARY [128], Соционет [175]. Эти системы в той или иной степени удовлетворяют потребности исследователей в информации, однако каждая из них страдает определенными недостатками.

Во-первых, существенной проблемой большинства программных систем информационного обеспечения научной деятельности, предназначенных для функционирования в течение неопределенно долгого времени, является недостаточно своевременная актуализация информации (исключение составляют лишь библиотечные системы). Причина возникновения этой проблемы очевидна: недостаток средств, прежде всего, для оплаты труда лиц, которые должны отслеживать изменения информации, а также предъявляемые к этим лицам высокие квалификационные требования, возрастающие с усложнением структуры и возможностей поддерживаемой информационной системы. В частности, опыт выполнения интеграционных проектов СО РАН, в рамках которых производилось создание программных систем той или иной научной тематики, показал, что такие системы могут развиваться лишь в случае актуализации содержащейся в них информации самими пользователями этих систем. Наиболее эффективная реализация подобных проектов возможна в том случае, когда "черновая" информационная работа, неизбежная при каталогизации электронных документов научной тематики, составлении тезаурусов предметной области и т.п., в значительной степени автоматизирована посредством использования соответствующих программных средств, притом основную долю функций контроля качества полученной информации способен выполнить даже лаборант и лишь в редких случая требуется корректировка результатов с участием эксперта — научного работника.

К сожалению, задача автоматизации вовлечения электронных документов в научно-информационный процесс всё еще далека от сколько-нибудь удовлетворительного решения. Одна из основных причин сложившейся ситуации заключается в том, что с появлением в конце 1970-х годов персональных компьютеров появились мощные средства визуализации информации, вследствие чего были почти остановлены научные изыскания в области теории создания информационно-поисковых систем, которые возобновились лишь в середине 1990-х в связи с развитием информационных технологий интернета и перехода к распределенному хранению информации. В настоящее время в указанной области получены важные результаты (см. монографии [254, 276] и др.), однако эти разработки обычно опираются на неявное предположение о возможности широкого распространения более или менее подробной стандартизации представления информации, например на основе словарей (концепция Semantic Web консорциума W3 [274]). К тому же наработки консорциума W3 носят лишь рекомендательный характер, а объявить их стандартами могут только организации, имеющие соответствующий статус, такие как ISO, ГОСТ или ANSI, поэтому реальное развитие большинства ресурсов интернета, в том числе научной направленности, идет без учета подобных необязательных рекомендаций. Более того, свободный характер размещения материалов в интернете превращает требование соблюдения даже обязательных стандартов представления информации всего лишь в благое пожелание (особенно это касается российской части интернета: даже в рамках крупной научной корпорации не удается административно утвердить единые стандарты хранения и представления информации [11]).

Одним из наиболее неприятных следствий описанной ситуации является сложность поиска информации, содержащейся в текстовых документах интернета. Это относится даже к традиционным методам поиска, характерным, например, для библиотек: поиск по имени автора документа, названия документа или тематический поиск, поскольку слабоструктурированный электронный документ (то есть документ, снабженный метаданными1, но при этом имеющий неструкI турированные элементы) может не содержать явно заполненных соответствующих полей метаданных, причем классификационные признаки документа зачастую вообще отсутствуют. Разумеется, обработка слабоструктурированных документов не может быть полностью автоматизирована, и основная задача разработчиков соответствующих программных средств состоит в уменьшении необходимого участия человека в процессе контроля за качеством обработки информации.

1 Метаданные ("данные о данных") — структурированные данные, представляющие собой характеристики описываемых сущностей для целей их идентификации, поиска, оценки, управления ими [277]. Подробнее о метаданных см. § 1.2.

Так как пользователи, принимающие участие в актуализации информации, могут находиться в разных регионах России и даже мира, то становится очевидным экономическая нецелесообразность использования коммерческих программных пакетов, предназначенных для частичной автоматизации процесса каталогизации электронных документов, создания и расширения тезаурусов (онтологии) и т. п., поскольку необходимость установки таких пакетов на компьютерах всех специалистов, поддерживающих данную информационную систему и при этом работающих в разных организациях (или использование сетевых версий, рассчитанных на большое число пользователей), связано с немалыми финансовыми затратами. Поэтому становится актуальной задача разработки и реализации алгоритмов, автоматизирующих основные этапы научно-информационного процесса (включая создание тезаурусов и онтологий), посредством интернет-приложений, доступных с любого компьютера сети (разумеется, после аутентификации и авторизации пользователя-эксперта).

Во-вторых, построение масштабных информационных систем для поддержки научной деятельности требует распределенного хранения информации. В частности, относительно систем научно-организационной направленности, создаваемых в рамках одной большой научной корпорации (например Сибирского отделения РАН), можно сделать вывод, что "эффективная эксплуатация информационных ресурсов возможна только в том случае, когда они постоянно поддерживаются авторами" [84]. Таким образом, информационная система научной корпорации должна строиться как объединение информационных систем отдельных организаций. В свою очередь, информационная система каждой организации состоит из нескольких разнородных подсистем (кадровая, библиографическая и т. п.).

Отсюда неизбежно возникает проблема интероперабелънослш, то есть обеспечения взаимодействия разнородных информационных источников (как с целью их непосредственной интеграции, так и для организации поиска по однотипным подсистемам различных информационных систем). Теоретические вопросы интероперабельности обсуждаются, например, в работах [52, 195]. Коротко резюмируя их содержание, можно отмстить, что организация в них поиска обеспечивается посредством согласования схем метаданных (семантическая ии-тероперабелъностъ). Для интеграции разнородных систем, а также разнородных ресурсов внутри каждой отдельно взятой системы (что необходимо для извлечения из содержащихся в информационной системе данных новой информации и знаний) требуется согласование как моделей данных и форматов их представления (синтаксическая инте-роперабельностъ), так и протоколов доступа к ресурсам (техническая интероперабельностъ).

Наконец, в-третьих, при создании информационных систем зачастую недостаточное внимание уделяется вопросам организации взаимодействия разрабатываемой системы с людьми -- потребителями информации. Так, А. Н. Колмогоров неоднократно отмечал, что данные представляют информационную ценность лишь тогда, когда они являются составной часть некоторой модели реального мира и связаны с другими данными [102, 103]. Тем самым, применение информациониых технологий должно основываться на использовании различных моделей (феноменологических, информационных, математических и др.). Как подчеркивал А. А. Ляпунов (см., например, [115]): "нет модели — нет информации".

Для возможности эффективного восприятия человеком данных нужно, чтобы они были превращены в "информацию", которая может быть представлена в виде "знаний"1 — "адеква/гного отражения действительности в сознании человека в виде представлений, понятии, суждений, теорий" [176]. Формально же знания представляются как структурированная (связанная причинно-следственными и иными отношениями) информация [3].

Сказанное, в частности, означает, что предполагаемая возможность извлечения из содержащихся в информационной системе данных новой информации и знаний влечет за собой необходимость наличия связей между документами, содероюащими упоминание тех или иных сущностей, с документами, описывающими эти сущности. Например, необходима связь имен собственных (как элементов библиографического описания и т. п.) с информацией о конкретных носителях этих имен, ибо в противном случае имя несет лишь назывную, но не информационную функцию [123].

Продолжая обсуждение проблемы организации взаимодействия с людьми — потребителями информации, следует отметить, что информационные потребности научных работников на этапе научного поиска

1Более подробно о соотношении понятий "данные", "информация" и "знания" речь пойдет в § 1.1. и изучения имеющихся в данной области результатов характеризуются невысокой четкостью осознания и выражения (см., например, [3]). Возникает необходимость оснащения информационных систем функцией поиска "по аналогии", т. е. есть нахождения по данному документу (или множеству документов) класса документов, схожих с ним по содержанию.

Если же говорить об атрибутивном поиске, то на практике большинство рядовых пользователей испытывает затруднения в самостоятельном построении запросов более сложных, нежели простой контекстный поиск, даже если им предоставлен удобный интерфейс, не требующий непосредственного использования языка запросов. Трудности возникают на уровне понимания схем данных и использования логических операторов, без которых немыслимы более или менее сложные запросы. Поэтому необходимо, чтобы рядовой пользователь информационной системы имел возможность получить интересующую его информацию посредством элементарных действий (навигации), при этом квалифицированным пользователям должны быть предоставлены дополнительные сервисы, отвечающие современным технологическим требованиям.

Решение перечисленных проблем возможно на пути создания интеллектуальных информационных систем, [3], в качестве составных компонент которых входят, наряду с традиционной информационной системой, еще и рассуждающая информационная система (формализующая правила логического вывода), а также интеллектуальный интерфейс (диалог, графика и т. д.), благодаря которому компьютер в диалоговом режиме усиливает комбинаторное мышление и логические возможности человека. При этом крайне важно, чтобы создаваемые системы могли обрабатывать в автоматизированном режиме слабоструктурированные документы.

Алгоритмы обработки слабоструктурированных документов описаны в работах как зарубежных ([245, 269] и др.), так и отечественных ([129, 130] и др.) авторов. Основная идея таких алгоритмов базируется, как правило, на анализе их Ыт1-разметки. Однако имеются важные нерешенные проблемы:

Таким образом, весьма актуальна решаемая в диссертационной работе проблема теоретического обоснования и разработки технологических основ создания программных систем, обеспечивающих автоматизированное включение в научно-информационный процесс слабоструктурированных документов с целью получения на основании содержащихся в них данных новой информации и знаний (в последнее время в качестве обозначения подобных систем пытаются закрепить термин "портал" [59]). Следует отметить, что для некоторых других классов информационных систем (прежде всего, тех. в которых семантика информации сравнительно проста) аналогичные задачи уже получили достаточно полное решение. В частности, вопросы анализа информационных систем, работающих с результатами измерений (так называемых информационно-измерительных систем, [201]), рассмотрены в монографии В. П. Бакалова [6].

Поставленная задача охватывает несколько комплексов проблем, требующих решения.

Во-первых, следует решить вопросы построения моделей основных компонентов интеллектуальной системы: как информационно-поисковой системы (рассматриваемой в абстрактном виде (см. [124, с. 253]), т. е. без учета средств технической реализации), так и логических компонентов, отвечающих за поиск информации, вывод новых знаний и диалог с пользователем.

Имеющиеся наработки в области теории моделирования баз данных, как классические, которые изложены, например, в монографии Д. Цикритзиса и Ф. Лоховски [202] (некоторые аспекты дальнейшего развития положений этой монографии, а также важные терминологические уточнения содержатся в статье М. Р. Когаловского [100]), так и современные, представленные, в частности, в диссертационной работе С. В. Зыкина [91], не могут в полной мере отвечать требованиям поставленной задали. Дело в том, что эти работы рассматривают в качестве логической единицы хранения, то есть основного элемента системы, запись в базе данных, в то время как развитие интернет-технологий требует рассматривать в этом качестве докул^ент, то есть в данном контексте информационный ресурс, имеющий (по определению [235]) уникальный идентификатор и обладающий некоторой структурой и содержанием.

Однако и рассмотрение ресурса в качестве основного элемента системы не решает всех проблем. Например, в модели RDF консорциума W3 [266] элементы суть ресурсы, которые могут представлять и сущности, и их характеристики. Неудобства такого подхода очевидны: приходится иметь дело с большим количеством равноправных мелких элементов, между которыми нужно устанавливать чрезвычайно много связей, вследствие чего структура модели далека от естественной. В модели ИСИР РАН [93] элементы суть "ресурсы, аналогичные до-кументоподобным объектам", а связи задаются с помощью отношений между типами ресурсов, то есть связи также имеют внешний характер по отношению к ресурсу.

Подход к построению моделей логических компонентов также принципиально отличается от подхода, применяемого специалистами в области искусственного интеллекта для разработки экспертных систем (см., например, монографию [66]): последние предназначены для решения узкоспециализированных задач, содержат относительно небольшой объем документов, и основной упор при их создании делается на развитие сложных продукционных правил, в то время как интеллектуальные системы, работающие с документальной информацией, могут обладать достаточно простыми продукционными правилами, а получение новых знаний становится возможным благодаря большому объему документов, способных выступать в качестве аргументов проверяемых утверждений.

Следовательно, необходима разработка оригинальных моделей основных компонентов интеллектуальной информационно-поисковой системы, учитывающих перечисленные выше особенности.

Во-вторых, поскольку документы информационной системы связаны между собой, неизбежно встает проблема возможного рассогласования информации. Так, включение в документы информации о разнородных сущностях может привести к появлению множественной информации об одном и том же объекте. Кроме того, для представления сложных документов, когда один документ является частью другого (полностью или частично, в том числе и в виде гиперссылки), необходимо выработать подходы к установлению связей между документами.

Таким образом, становится актуальной разработка технологии идентификации, спецификации и визуализации горизонтальных отношений между сущностями, информация о которых содержится во множестве документов, а также между документами, которые являются составной частью сложных документов. Одним из основных элементов этой технологии является разработка информационной модели отношений и тематических связей между документами системы.

Отметим, что в библиотечных системах, построенных на основе протокола Z39.50 и его версий [83], выполняется полное дублирование служебной информации. Аналогичная ситуация возникает в информационных системах, построенных на основе ЬБАР-каталогов [62], в которых имеется мощная система перекрестных ссылок, но используемая иерархическая модель не допускает отношений "многие-ко-мно-гим". Если такие отношения все же возникают, то появляется необходимость дублирования информации, что может привести к рассогласованию информации.

Ввиду этого целесообразно хранить информацию в единственном экземпляре, устанавливая в нужных случаях отношения "многие-ко-многим". Традиционный подход, применяемый при проектировании реляционных баз данных (см., например, [4, 121, 184]), заключается в рассмотрении многоместных отношений с их последующей декомпозицией в процессе нормализации. Его недостаток состоит в излишней привязке к структуре данных, поэтому актуальна задача разработки модели связей, обладающей более высоким уровнем абстрагируемости от структуры данных.

В-третьих, поскольку основной особенностью научно-информационного процесса с участием интернет-документов является необходимость и возможность частичной автоматизации процессов извлечения их метаданных и классификации, возникает задача создания соответствующих программных средств. При этом важно подчеркнуть, что в качестве эксперта, координирующего функционирование таких средств, может выступать любой пользователь системы, обладающий необходимым уровнем квалификации.

Разумеется, существуют программные инструменты, решающие те или иные частные вопросы автоматизации указанных процессов. Так, для извлечения из текстов информации на основании гипертекстовой разметки обрабатываемых документов созданы пакеты 11оас1Шшпег, Ыхк) и др. (см., например [245, 269]). Однако коммерческий характер таких программ и необходимость их специальной установки на компьютере каждого пользователя-эксперта (а количество таких пользователей может исчислять десятками и даже сотнями, притом они могут находиться в разных регионах России и даже мира) делает актуальной задачу реализации алгоритмов, автоматизирующих основные этапы научно-информационного процесса, посредством интернет-приложений, доступных с любого компьютера сети.

К этому же кругу задач относится разработка автоматизированной технологии создания тезауруса и онтологии той или иной предметной области, которая обеспечивала бы высококвалифицированное описание предметной области с использованием надежно выверенных терминов, позволяла бы минимизировать трудозатраты специалистов-экспертов.

В-четвертых, важной проблемой остается разработка структур представления научной и научно-организационной информации. Поскольку на практике большинство рядовых пользователей испытывают затруднения в самостоятельном построении запросов более сложных, нежели простой контекстный или атрибутивный поиск, постольку необходимо. чтобы базовая структура представления информации отвечала такой совокупности заранее сформулированных информационных запросов, которая была бы в состоянии удовлетворить основные информационные потребности пользователей системы.

К тому же следует учитывать, что широта и многогранность информационных потребностей научного сообщества (см., например, [38]) вызывает необходимость массового создания информационных систем, разнообразных как по тематике, так и по целевому назначению, что приводит к необходимости систематического изучения всех стадий процесса разработки интеллектуальных систем, включающего стадии создания концептуальной модели информационной модели и практической реализации системы.

Резюмируя сказанное выше, можно сделать вывод о том, что комплексное решение указанных проблем возможно лишь при осмыслении процесса компьютерной обработки слабоструктурированной информации как технологии. Заметим, что аналогичное осмысление другой области кибернетики — вычислительного моделирования — было осуществлено в начале 1980-х годов в работах академиков Н. Н. Яненко [230] и А. А. Самарского [1 ТО} и стало важной вехой в развитии прикладной математики.

В соответствии с [180] будем понимать под технологией совокупность методов обработки, изготовления, изменения состояния, свойств и формы сырья, материалов или полуфабрикатов в процессе производства продукции. Разумеется, одним из важнейших свойств технологии является ее воспроизводимость (это вытекает, например, из определения технологии как научной дисциплины, согласно которому технология изучает различные закономерности, действующие в технологических процессах [180]). Иными словами, любая технология по своей сути — воспроизводимый инструмент, применяемый для превращения потребляемых факторов в продукцию, или для достижения планируемых результатов [82].

Сошлемся еще на одно, пожалуй, наиболее краткое из определений технологии: "технология — способ преобразования данного в необходимое" (см., например, [181]), которое подтверждает, что применительно к поставленной задаче по-настоящему технологичным можно назвать лишь тот подход, который способен "перерабатывать" максимально широкие пласты интернет-ресурсов научной тематики.

Целью диссертационного исследования является теоретическое обоснование, разработка и реализация принципов создания программных систем информационного обеспечения научной деятельности, способных в автоматизированном режиме извлекать данные (описательные характеристики) из слабоструктурированных электронных документов с целью получения на основании этих данных новой информации и знаний.

Задачи, решаемые в работе:

4. Разработка отвечающей основным системным принципам модели информационной системы.

5. Разработка информационной модели отношений и тематических связей между документами системы.

6. Разработка структуры логических компонентов системы, отвечающих за поиск информации, вывод новых знаний и диалог с пользователем.

9. Исследование принципов и разработка алгоритмов автоматизации научно-информационного процесса с участием слабоструктуриро-ваниых документов, который включает извлечение метаданных из документов, координатное индексирование терминами-словосочетаниями и классификацию (кластеризацию) документов.

10. Внедрение результатов исследований в учебный процесс.

Объект исследования. Данные, содержащиеся в слабоструктурированных текстовых электронных (в т.ч. размещенных в интернете) документах научной и научно-организационной тематики.

Методология и методы исследования.

Методологические основы информатики как науки о структуре и свойствах научной информации заложены в монографиях сотрудников ВИНИТИ А. И. Михайлова, А. И. Черного, Р. С. Гиляревского, Ю. М. Арского и др. [125, 124, 123, 3], а также Б. В. Бирюкова [55].

Методология системного анализа, у истоков которой стояли А. А. Богданов [57] и Л. фон Бсрталанфи [237, 238], была развита в работах М. Месаровича и Я. Такахары [122], В. Н. Садовского [159] и др. Применительно к кибернетическим системам методология системного анализа была описана в статье А. А. Ляпунова и С. В. Яблонского [116], а к информационным системам — в работах Ю. А. Шрейдера и др. [221, 226].

Методология автоматизации процессов обработки текстовой информации описана в работах Дж. Солтона (Г. Сэлтона) [270, 271], а также (с учетом особенностей русского языка) Г. Г. Белопогова и др. [54, 53].

Методология разработки программных систем информационного обеспечения различных аспектов научной деятельности на базе новых интернет-технологий предложена Ю. И. Шокиным и А. М. Федотовым [209-214, 187]; А. Б. Жижчеико, В. А. Серебряковым, А. Н. Бездушным и др. [93, 51, 52]; С. В. Мальцевой [118], Д. В. Гаскарова ¡68] и др.

Методы организации хранения и поиска информации непосредственно в базах данных подробно изложены, например, в монографии Э. Э. Гасаиова и В. Б. Кудрявцева [67].

В диссертации использованы также методы семиотики, теории моделирования баз данных, теории сходства, математического моделирования.

Наиболее существенные научные результаты заключаются в следующем: Обоснована методология комплексного изучения интернет-сайтов.

Предложена модель информационного обеспечения деятельности научного сообщества, отличительными особенностями которой являются четкое выделение субъектов (включая организации и группы) и объектов деятельности, а также неиерархичность структуры субъектов деятельности.

Разработана отвечающая основным системным принципам модель информационной системы, отличительной особенностью которой является использование в качестве основных структурных элементов документов (целостных информационных объектов, снабженных метаданными), связи между которыми задаются посредством направленных связей.

Разработана структура логических компонентов интеллектуальной системы, базовыми объектами которой являются каталог, объединяющий поисковые образы исходных документов, и онтология предметной области.

Предложена базовая структура представления информации на основании многомерной классификации, описываемая посредством задания подмножества метаданных, определяющего набор классификационных признаков, и сочетаний значений этих метаданных.

Разработана методика создания тезаурусов и онтологий па основе предметного указателя специализированных энциклопедий, отличительной особенностью которой является возможность автоматизированного установления связей между терминами.

Исследованы принципы и предложены алгоритмы автоматизации основных этапов научно-информационного процесса с участием слабоструктурированных документов (включая извлечение метаданных, определение ключевых слов, классификацию и кластеризации), причем программные средства, реализующие эти алгоритмы, функционируют как сетевые приложения.

Практическая значимость. На основе полученных в работе теоретических результатов и методических рекомендаций создан комплекс методов, обеспечивающий решение важной научно-технической задачи: включения в научно-информационный процесс слабоструктурированных интернет-документов с целью получения на основании содержащихся в них данных повой информации и знаний.

Результаты работы использованы при выполнении проекта конкурса молодых ученых ННЦ СО РАН "Интегрированная информационная система научного сообщества (пилотный проект — система «Математика»)" (автор выступал в роли руководителя проекта); молодежного научного проекта СО РАН № 2003-6 "Разработка информационной системы «\¥еЬ-ресурсы математического содержания»" (автор выступал в роли руководителя проекта); проектов программы поддержки ведущих научных школ РФ № НШ-2314.2003.1 "Информационно-вычислительные технологии в задачах принятия решений". НШ-9886.2006.9 и № НШ-931.2008.9 "Разработка информационно-вычислительных технологий в задачах принятия решений", НЩ-6068.2010.9 "Разработка информационно-вычислительных технологий поддержки принятия решений"; Федеральной целевой программы "Научные и научно-педагогические кадры инновационной России" на 2009-2013 гг. (госкоптракт ГК № П484 от 04.08.2009 г. по проблеме "Создание научно-технического задела, направленного на разработку новых, эффективных с позиций функциональности и безопасности, основанных на он-тологиях, мультиагентных технологий управления распределенными разнородными информационными хранилищами и библиотеками информационных ресурсов"); госконтрактов "Технология разработки распределенных программных систем для мониторинга больших корпоративных научно-образовательных сетей передачи данных на базе современных методов интеллектуального анализа данных и машинного обучения" (шифр 2007-4-1.4-00-04-103) и "Технология разработки распределенных программных систем для мониторинга и обеспечения информационной безопасности информационных систем, потенциально уязвимых в отношении деструктивных информационных воздействий" (шифр 2007-4-1.4-15-04-004); проектов РФФИ № 03-07-90423-в "Виртуальный музей науки и техники СО РАН", № 06-07-89060-а "Разработка модели виртуальной среды для обмена результатами научных исследований", № 06-07-99003-с "Ресурсы сети Интернет как объект научного исследования" (конкурс научно-популярных статей, в соавторстве с А. М. Федотовым), № 07-07-00271-а "Разработка и анализ модели управления доступом к распределенным информационным ресурсам" № 09-07-00277-а "Разработка технологий построения распределенных интегрируемых систем обработки, хранения и передачи информационных ресурсов на основе открытых спецификаций моделей данных", № 10-07-00302—а "Разработка и анализ модели построения электронных библиотек на основе международных стандартов"; интеграционных проектов СО РАН № 2003-132 "Виртуальный музей науки и техники СО РАН", № 2006-34 "Создание распределенной информационно-аналитической среды для исследований экологических систем", № 2006-35 "Древовидный каталог математических интернет-ресурсов", № 2006-115 "Разработка интеллектуальных информационных технологий генерации и анализа знаний для поддержки фундаментальных научных исследований в области естественных наук", № 2009-50 "Модели изменения биосферы на основе баланса углерода (по натурным и спутниковым данным и с учетом вклада бо-реальных экосистем)".

Результаты исследований внедрены в Информационно-справочной системе СО РАН, занимающей, по данным на июль 2010 г. рейтинга \¥еЬоте!;пс8, в который входят сайты ведущих научно-исследовательских центров всего мира, 1-е место среди российских сайтов (19-е — в Европе, 54-е — в мире) [278]), а также использованы в процессе создания ряда систем информационного обеспечения научной деятельности: Электронного атласа биоразнообразия животного и растительного мира Сибири, Электронной библиотеки МаШТгее, Распределенной информационно-аналитической среды для экологических исследований, сайта журнала "Вычислительные технологии".

Результаты диссертационной работы использованы в учебном процессе кафедры математического моделирования Новосибирского государственного университета, кафедры вычислительных технологий Новосибирского государственного технического университета и кафедры прикладной математики и кибернетики Сибирского государственного университета телекоммуникаций и информатики.

Основные положения, выносимые на защиту. Технологические основы создания программных систем, обеспечивающих автоматизированное включение в научно-информационный процесс слабоструктурированных документов с целью получения на основании содержащихся в них данных новой информации и знаний, включающие в себя: модель информационного обеспечения деятельности научного сообщества, отличающуюся от известных четким выделением субъектов и объектов деятельности; отвечающую основным системным принципам модель информационной системы, представляемой как множество документов (целостных информационных объектов, снабженных метаданными), связи между которыми задаются посредством направленных связей; оригинальный алгоритм создания тезаурусов и онтологий на основе предметных указателей специализированных энциклопедий;

- принципы и алгоритмы автоматизации основных этапов научно-информационного процесса с участием слабоструктурированных документов (включая извлечение метаданных, определение ключевых слов, классификацию и кластеризцию), причем программные средства, реализующие эти алгоритмы, функционируют как сетевые приложения.

Апробация результатов исследования. Основные положения диссертации обсуждались на многих международных, всероссийских и региональных конференциях, в том числе на Всероссийских научных конференциях "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" - Ш1ЮЬ (Дубна, 2002; Санкт-Петербург, 2003; Ярославль, 2005; Суздаль, 2006; Переславль-Залесский, 2007; Дубна, 2008; Петрозаводск, 2009; Казань, 2010); Второй Международной конференции IASTED по автоматизации управлению и информационным технологиям (Новосибирск, 2005); Международных конференциях и совещаниях по электронным публикациям - El-Pub (Новосибирск, 2002, 2003, 2004); Всероссийских конференциях с участием иностранных ученых "Распределенные информационно-вычислительные ресурсы" - DICR (Новосибирск, 2005, 2008); Международной конференции "Распределенные информационно-вычислительные ресурсы" (Казахстан, Павлодар, 2006); Международной конференции "Вычислительные и информационные технологии в науке, технике и образовании" (Казахстан, Алма-Ата, 2004); Международных конференциях "Системный анализ и информационные технологии" - САЙТ (Переславль-Залесский, 2005; Звенигород, 2009); Международной конференции "Мальцевские чтения" (Новосибирск, 2008), Всероссийских конференциях с международным участием "Знания - Онтологии -Теории" - ЗОНТ (Новосибирск, 2007, 2009): Всероссийских научно-практических конференциях "Инновационные недра Кузбасса. ГГ-тех-нологии" (Кемерово, 2005, 2007, 2008); Всероссийской научно-практической конференции "Системы автоматизации в образовании, науке и производстве" (Новокузнецк, 2007); Всероссийских конференциях молодых ученых по математическому моделированию и информационным технологиям (Красноярск, 2003; Монголия, Ханх, 2009 — лекционный доклад; Красноярск, 2010 — лекционный доклад); Конференциях молодых ученых СО РАН, посвященных М. А. Лаврентьеву (Новосибирск, 2003, 2004); а также на семинарах и совещаниях в Институте вычислительных технологий СО РАН, Институте системного анализа РАН, Институте математики СО РАН, Институте систем информатики СО РАН, Институте динамики систем и теории управления СО РАН, Московском государственном университете печати, Новосибирском государственном университете и др.

Публикации. Основные результаты диссертации опубликованы в статьях [10, 23, 25, 29, 32, 33, 35, 3G, 38, 44, 46, 47, 64, 157, 189, 190, 192, 194, 215, 216, 258] (соответствующие журналы входят в список ВАК). Кроме того, результаты исследований по теме диссертации публиковались в научном электронном журнале "Электронные библиотеки" [39], в трудах международных [9, 11, 12, 14, 15, 20, 21, 28, 37, 191, 205, 233, 275], всероссийских [8, 13, 16, 19, 22, 24, 26, 27, 30, 31, 34, 40, 41, 42, 43, 45, 48, 113, 158, 193, 206, 208, 217, 218] и региональных [17, 18] конференций.

В работах, выполненных в соавторстве, В. Б. Барахнину принадлежат результаты, относящиеся к исследованию информационных потребностей научного сообщества, разработке информационной модели описания деятельности научного сообщества, моделей и структур основных компонент интеллектуальной системы, модели направленных связей между документами, базовых структур представления информации, разработке методики комплексного изучения интернет-сайтов, разработке методики создания тезаурусов и онтологий на основе предметного указателя энциклопедий, исследованию принципов и созданию алгоритмов автоматизации научно-информационного процесса с участием слабоструктурированных интернет-документов, а также результаты по практическому использованию этих алгоритмов.

Структура и объем диссертации. Диссертация состоит из введения, 7 глав, заключения, списка использованных источников из 285 наименований, приложений (в т.ч. актов и справок о внедрении результатов в научных учреждениях и в учебный процесс вузов). Общий объем работы 315 е., включая 24 рисунка и 8 таблиц.

Заключение диссертация на тему "Программные системы информационного обеспечения научной деятельности"

10. Результаты исследования внедрены в Информационно-справочной системе СО РАН, что позволило повысить качество ее функционирования, а также использованы в процессе создания ряда систем информационного обеспечения научной деятельности: Электронного атласа биоразнообразия животного и растительного мира Сибири, Электронной библиотеки Ма^Тгее, тезауруса по гетерогенному катализу, сайта журнала "Вычислительные технологии", благодаря чему была достигнута существенная экономия трудозатрат, в т.ч. специалистов высшей квалификации.

11. Результаты использованы в учебном процессе кафедры математического моделирования НГУ. кафедры вычислительных технологий НГТУ и кафедры прикладной математики и кибернетики СибГУТИ.

Достоверность и обоснованность научных положений, результатов, выводов и рекомендаций, приведенных в диссертационной работе, обеспечиваются теоретической и методологической базой исследования (в т.ч. использованием методологии системного анализа рассматриваемых структур, обобщением результатов большого числа отечественных и зарубежных исследований, изучением процессов функционирования крупнейших систем информационного обеспечения иаучной деятельности), подтверждаются внедрением в Информационно-справочную систему СО РАН и в ряд тематических систем информационного обеспечения научной деятельности, использованием в учебном процессе новосибирских вузов, поддержкой отдельных направлений исследований грантами и премиями отечественных организаций, апробацией и обсуждением результатов работы на крупных международных и всероссийских конференциях, а также рецензированием и предварительной экспертизой научных статей, опубликованных в ведущих научных изданиях.

Сказанное позволяет сделать вывод о том, что полученные результаты могут рассматриваться в качестве теоретической и методологической основы для создания технологии процесса компьютерной обработки слабоструктурированной информации, содержащейся в документах научной тематики.

Заключение

В настоящем исследовании проведены теоретическое обоснование и разработка структур, моделей и алгоритмов, описывающих программные системы информационного обеспечения научной деятельности, предназначенные для включения в научно-информационный процесс слабоструктурированных интернет-документов с целью получения на основании содержащихся в них данных новой информации и знаний.

Были получены следующие основные результаты, полностью соответствующие поставленным целям и задачам:

1. Проведено исследование информационных потребностей научного сообщества в свете изменений, вызванных распространением интернет-технологий, а также новыми принципами функционирования и финансирования российской науки, основанное на сравнении характеристик информационных потребностей, изучении интеграционных проектов СО РАН в области информатики и исследовании интернет-сайтов.

Библиография Барахнин, Владимир Борисович, диссертация по теме Теоретические основы информатики

1. Андреев Ю.Ы. Научно-инновационные комплексы регионов как ресурс развития // Регионология. — 2002. — № 4. — С. 76-87.

2. Апресян Ю.Д. Избранные труды, том 1. Лексическая семантика. — М.: Школа "Языки русской культуры", Издательская фирма "Восточная литература" РАН, 1995.

3. Арский Ю.М., Гиляревский P.C., Туров И. С., Черный А. И. Инфосфера: Информационные структуры, системы и процессы в пауке и обществе. М.: ВИНИТИ, 1990.

4. Атпре Ш. Структурный подход к организации баз данных / Пер. с англ. — М.: Финансы и статистика, 1983.

5. Афанасьев К.Е., Шмакова JJ.E. Компьютерная обработка информации. — Кемерово: Кузбаесвузиздат, 2005.

6. Бакалов В.П. Теория функциональной сложности информационных систем. — Новосибирск: Наука, 2005.

7. База данных организаций и сотрудников СО РАН. — http://www.sbras.ru/sbras/db/.

8. Барахнин В.Б. Разработка тезауруса предметной области "Математика" // Вычислительные технологии, т. 8, Региональный вестник Востока, JV2 3 (19), совместный выпуск. — 2003. — Часть 1. С. 111-115.

9. Барахнин В.Б., Леонова Ю.В. Информационная модель отношений между документами в информационной системе // Вычислительные технологии. — 2005. — Т. 10. Специальный выпуск. - С. 129-137.

10. Барахнин В.Б., Леонова Ю.В., Федотов A.M. К вопросу о формулировке требований для построения информационных систем научно-организационной направленности // Вычислительные технологии. — 2006. — Т. 11. — Специальный выпуск. — С. 52-58.

11. Барахнин В.Б., Макаренко С.Н., Степанов Ю.Ю. Создание web-интерфейса LDAP-каталога сотрудников организации // Прикладная математика и математическое моделирование: Межвузовский сборник научных трудов. — М.: МГУП, 2007. — С. 13-16.

12. Барахнин В.Б., Нехаева В.А. Технология создания тезауруса предметной области па основе предметного указателя энциклопедии // Вычислительные технологии. 2007. — Т. 12. — Специальный выпуск 2. — С. 3-9.

13. Барахнин В.Б., Нехаева В.А., Федотов A.M. О задании меры сходства для кластеризации текстовых документов // Вестник НГУ. Сер.: Информационные технологии. 2008. — Т. 6. — Вып. 1. - С. 3-9.

14. Барахнин В.Б., Ткачев Д. А. Кластеризация текстовых документов на основе составных ключевых термов // Вестник НГУ. Сер.: Информационные технологии. — 2010. — Т. 8. — Вып. 2. — С. 5-14.

15. Барахнин, В.Б., Федотов A.M. Информационная система: взгляд на понятие // Вестник НГУ. Сер.: Информационные технологии. 2007. - Т. 5. - Вып. 2. — С. 12-19.

16. Барахнин В.Б., Федот,ов A.M. Исследование информационных потребностей научного сообщества для построения информационной модели описания его деятельности // Вестник НГУ. Сер.: Информационные технологии. — 2008. — Т. 6. — Вып. 3. — С. 48-59.

17. Барахнин В.Б., Федотов A.M. Методика построения информационно-справочной системы по истории математической науки / / Электронные библиотеки. — 2007. — Т. 10. — Вып. 1. — http: / / www.elbib.ru/index. phtml?page=elbib / rus/journal /2007/ partl/BF.

18. Барахнин В.Б., Федотов A.M. О понятии "информационная система" в свете современных информационных технологий // Труды VI Всероссийской научно-практической конференции "Инновационные недра Кузбасса. IT-технологии". — Кемерово, 2007. С. 139-144.

19. Барахнин В.В., Федотов A.M. Особенности информационно-поисковых систем общего назначения // Труды Всероссийской научной конференции "Научный сервис в сети Интернет: многоядерный компьютерный мир". — Новороссийск, 2007. — С. 340344.

20. Барахнин В.Б., Федотов A.M. Ресурсы сети Интернет как объект научного исследования // Известия вузов. Проблемы полиграфии и издательского дела. — 2008. — № 1. — С. 70-77.

21. Барахнин В.Б., Федотов A.M. Уточнение терминологии, используемой при описании интеллектуальных информационных систем, на основе семиотического подхода // Известия вузов. Проблемы полиграфии и издательского дела. — 2008. № 6 -С. 73-81.

22. Барсегян A.A., Куприянов М.В. Степаиенко М.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. — СПб.:1. БХВ-Петербург, 2004,

23. Бахвалов Н.С. Численные методы. — М.: Наука, 1970.

24. Бездушный A.A., Бездушный А.Н., Серебряков В.А., Филиппов В. И. Интеграция метаданных Единого научного информационного пространства РАН. — М.: ВЦ им. A.A. Дородницына РАН, 2006.

25. Бездушный А.Н., Кулагин М.В., Серебряков В.А., Бездушный A.A., Нестеренко А.К., Сысоев Т.М. Предложения по наборам метаданных для научных информационных ресурсов // Вычислительные технологии. — 2005. — Т. 10. — Специальный выпуск.- С. 29-48.

26. Белоногое Г.Г., Кузнецов Б.А. Языковые средства автоматизированных информационных систем. — М.: Наука, 1983.

27. Белоногое Г.Г., Новоселов А.П. Автоматизация процессов накопления, поиска и обобщения информации. — М.: Наука, 1979.

28. Бирюков Б.В. Кибернетика и методология науки. — М.: Наука, 1974.

29. Бобров Л.К. Организация стратегического управления информационной деятельностью библиотек и информационных центров в условиях рынка: Автореф. . доктора техн. наук: 05.25.05.1. Новосибирск, 2004.

30. Богданов A.A. Тектология: (Всеобщая организационная паука). В 2 кн. — М.: Экономика, 1989.

31. Борисова И.А., Загоруйко Н.Г. Функции конкурентного сходства в задаче таксономии // Материалы Всероссийской конференции с международным участием "Знания Онтологии - Теории" (30HT-07). - Новосибирск, 2007. - Т. 2. - С. 67-76.

32. Босов A.B., Иванов A.B. Программная инфраструктура информационного web-портала // Информатика и ее применения. — 2007. Т. 1. - Вып. 2. - С. 50-64.

33. J Бусленко Ii. П., Калашников В. В., Коваленко И. J f. Лекции по теории сложных систем. — М.: Советское радио, 1973.

34. Бэкон Ф. Новая Атлантида / Пер. с англ. //В кн.: Бэкон Ф. Сочинения в двух томах. — М.: Мысль (сер. Философское наследие), 1978. Т. 2. - С. 485-518.

35. Валиев М.К, Китаев Е.Л., Слепенков М.И. Использование службы директорий LDAP для представления ме-таипформации в глобальных вычислительных системах. — http://www.keldysh.ru/metacomputing/ism99.html.

36. Визитная карточка Сибирского отделения Российской академии наук. — http://www.sbras.ru/cmn/general.html.

37. Воронин Ю.А. Начала теории сходства. — Новосибирск: Наука. 1991.

38. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. —- СПб.: Питер, 2000.

39. Гасанов Э.Э., Кудрявцев В.Б. Теория хранения и поиска информации. — М.: Физматлит, 2002.

40. Гаскаров Д.В. Интеллектуальные информационные системы. — М.: Высшая школа, 2003.

41. Гвоздева Е. С., Высоцкий Е.М. Сегодняшний день будущего российской науки. — Новосибирск: Издательство СО РАН, 2004.

42. Гергей Т., Финн В.К. Об интеллектуальных системах //В кн.: Экспертные системы: состояние и преспективы. — М.: Наука, 1989. С. 9-29.

43. Гиндин С.И. Семантика текста и различные теории информации // Научно-техническая информация. Сер. 2. 1971. — № 10. — С. 10-15.

44. Голдман С. Теория информации / Пер.с англ. — М.: Иностранная литература, 1957.

45. Государственный НИИ информационных технологий и телекоммуникаций "Информика". — http://www.informika.ru.

46. Гуськов А.Е. Модель генерации и публикации информации при создании web-ориентированпых информационных систем // Ав-тореф. . кандидата техн. наук: 05.25.05. — Новосибирск, 2005.

47. Елисеев Ю.С., Малинецкий Г.Г., Медведев A.A., Харин A.A. Инновационный императив // Вестник национального комитета "Интеллектуальные ресурсы России". — 2004. — № 2. — С. 61-70.

48. Единое научное информационное пространство РАН. — http://www.ras.ru/.

49. Ермаков Н.Б., Столяров C.B., Федотов A.M. Модели данных для формирования биологических коллекций // Вестник H ГУ. Сер.: Информационные технологии. — 2007. — Т. 5. Вып. 2. — С. 35-41.

50. Ершов 10.Л., Клименко O.A., Матвеева И.Pl., Рабинович, Л.Р., Филиппов В.Э., Филиппова М.Я. Древовидный каталог математических интернет-ресурсов // Информационные ресурсы России. 2006. № 1. - С. 5-8.

51. Желеиы М. Управление высокими технологиями //В кн.: Информационные технологии в бизнесе. Энциклопедия / Пер. с англ. СПб.: Питер. 2002. - С. 81-89.

52. Жиоюимов О.Л., Мазов H.A. Принципы построения распределенных информационных систем на основе протокола Z39.50. — Новосибирск: Изд-во ИВТ СО РАН, 2004.

53. Жижимов О.Л., Турпанов A.A., Федотов A.M. Корпоративный каталог СО РАН // Труды Восьмой Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" (RCDL'2006). — Ярославль, 2006. С. 226-230.

54. Жмайло C.B. Исследование и разработка теории и методики построения тезаурусов для информационного поиска в полнотекстовых базах данных. Автореф. . кандидата техн. наук: 05.13.17. Москва, 2005.

55. Жукова Е.А., Мелик-Гайказян И.В. Философские проблемы технологий и феномен Hi-Tech //В кн.: Философия математики и технических паук. — М.: Академический Проект, 2006. — С. 557-586.

56. Зацман И.М. Концептуальный поиск и качество информации.- М.: Наука, 2003.

57. Зацман И.М. Семиотические основания и элементарные технологии информатики // Информационные технологии. — 2005.- № 7. С. 18-31.

58. Зверев B.C. Информационное обеспечение инновационной деятельности. — http://sinin.nsc.ru/infsys.html.

59. Зыкин C.B. Разработка и исследование моделей данных и средств организации взаимодействия пользователей с информационными ресурсами. Автореф. . доктора техн. наук: 05.13.17.- Омск, 2005.

60. Иконников A.B. Архитектура // Большая Советская Энциклопедия, изд. 3. М.: Советская Энциклопедия, 1970. — Т. 2. — С. 296-302.

61. Интегрирован,нал система информационных ресурсов (архитектура, реализация, приложения). (Отв. ред. В.А. Серебряков). — М.: ВЦ им. A.A. Дородницына РАН, 2004.

62. Информационная система СО РАН. — http://www.sbras.ru/.

63. Информационная система "Химия в СО РАН". — http: / / www.catalysis.nsk.su / chem/.

64. Информационная система "Web-ресурсы математического содержания". — http://www.sbras.ru/win/elbib/data,/ showpage.dhtml?2+184.

65. Информационные бюллетени Яндекса «Контент Рунета». — http: //company.yandex.ru/facts/researches/.

66. Каневский Е.А. Некоторые вопросы пополнения морфологического словаря терминами предметной области // Труды международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. — Аксаково, 2001. — Т. II. — С. 156-160.

67. Кант И. Пролегомены / Пер. с нем. — М.; JL: Соцэкгиз, 1934.

68. Когаловский М.Р. Абстракции и модели в системах баз данных // СУБД. 1998. - № 4-5. - С. 73-81.

69. Когаловский М.Р. Технология баз данных на персональных ЭВМ. — М.: Финансы и статистика, 1992.

70. Колмогоров А.Н. Теория информации и теория алгоритмов. — М.: Наука, 1987.

71. Колмогоров А.Н. Три подхода к определению понятия "количество информации" // Проблемы передачи информации. — 19G5. Т. I. - Вып. 1. - С. 3-П.

72. Компьютерре^. — 12 сентября 2005 года. — С. 6.

73. Концепция открытых систем // Материалы к межотраслевой Программе "Развитие и применение открытых систем". — http: / / www.lnformika.ru / text/inftech / opensys / 3/concept/os 1. html.

74. Кормен Т., Лейзерсон Ч., Ривест Р. Алгоритмы: построение и анализ / Пер. с англ. М.: МЦНМО, 2001.

75. Кузин Л.Т. Основы кибернетики. Т. I. — М.: Энергия, 1973.

76. Куценогий К. П., Куценогий Г1.К., МолороОов Ю.И. Федотов A.M. Разработка структуры метаданных по атмосферным аэрозолям на основе информационной модели // Вычислительные технологии. — 2004. — Т. 9. — Специальный выпуск. — Ч. 2. — С. 25-33.

77. Ляпунов A.A. О соотношении понятий материя, энергия и информация //В кн.: Ляпунов A.A. Проблемы теоретической и прикладной кибернетики. — Новосибирск: Наука, 1980. — С. 320 -323.

78. Ляпунов A.A., Яблонский C.B. Теоретические проблемы кибернетики // Проблемы кибернетики. — 1963. — Вып. 9. — С. 5-22.

79. Ляпунцова Е.В. Ииформационно-семиоитческие модели распределенных систем переработки информации. Автореф. . доктора техн. наук: 05.13.17. — Москва, 1996.

80. Мальцева C.B. Научно-методические основы автоматизации проектирования информационной архитектуры Web-рссурсов Интернет. Автореф. . доктора техн. наук: 05.13.12. — Москва, 2004.

81. Математическая энциклопедия в 5 томах. — М.: Советская энциклопедия, 1977-1985.

82. Математический портал. — http://math.ru/history/people/.

83. Мейер Д. Теория реляционных баз данных / Пер. с англ. — М.: Мир, 1987.

84. Месарович М., Такахара Я. Общая теория систем: математические основы / Пер. с англ. — М.: Мир, 1978.

85. Михайлов А.И., Черный А.И., Гиляревский P.C. Научные коммуникации и информатика. — М.: Наука, 1976.

86. Михайлов А.И., Черный А.И., Гиляревский P.C. Основы информатики. — М.: Наука, 1968.

87. Михайлов А.И., Черный A.M., Гиляревский P.C. Основы научной информации. — М.: Наука, 1965.

88. Наринъяни A.C. Кентавр но имени ТЕОН: Тезаурус + Онтология // Труды международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. — Аксаково, 2001. —-Т. I. С. 184-188.

89. Наринъяни A.C. ТЕОН-2: от Тезауруса к Онтологии и обратно // Труды международного семинара Диалог'2002 но компьютерной лингвистике и се приложениям. — Протвино, 2002. — Т. I. — С. 307-313.

90. Научная электронная библиотека eLIBRARY.RU. — http://elibrary.ru / defanltx.asp.

91. Некрасов И.В., Толчеев В.О. Построение модели представления библиографического документа // Информационные технологии. 2005. - № 11. - С. 57-63.

92. Никитина С.Е. Семантический анализ языка науки. — М.: Наука, 1987.

93. Овдей О.М. Проскудина Г.Ю. Обзор инструментов инженерии онтологий // Труды Шестой Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" (RCDL'2004). — Пущино, 2004. С. 59—68.

94. Огурцов А.П., Юдин Э.Г. Деятельность //В кн.: Философский энциклопедический словарь. — М.: Советская Энциклопедия, 1983. С. 151-152.

95. Осипов Г.С. Лекции по искусственному интеллекту. — М.:КРАСАНД, 2009.

96. Официальный сайт Государственной Думы. — http://www.duma.gov.ru.

97. Официальный сайт Русской Православной Церкви. — http://www.patriarchia.ru/.

98. Официальный сайт Союза писателей России. — http://sp. voskres.ru/prose/.

99. Панова И.О., Шрейдер Ю.А. Принцип двойственности в теории классификации // Научно-техническая информация. Сер. 2. — 1975. № 10. - С. 3-10.

100. Паркер-Роудс А. Ф., Уордли С. Применение тезаурусного метода при машинном переводе с помощью существующей машинной техники / Пер. с англ. //В кн.: Математическая лингвистика. Сборник переводов. — М.: Мир, 1964. С. 214-228.

101. Пахомов Б.Я. Проблема изменения значений научных понятий // Вопросы философии. 1973. - № 1. - С. 140 144.

102. Перечень зарегистрированных политических партий. — http: //www.cikrf.ru/politpa.rty/.

103. Петров В.М. Семантика научных терминов. Новосибирск: Наука, 1982.

104. Пойа Д. Как решать задачу / Пер. с англ. — М.: Учпедгиз, 1959.

105. Пойа Д. Математическое открытие / Пер. с англ. — М.: Наука, 1970.

106. Постановление Президиума СО РАН от 13.04.2000 № 137 "Об итогах конкурса интеграционных программ (проектов) СО РАН 2000 г." — http://www.sbras.ru/win/anonscs/373.litml.

107. Постановление Президиума СО РАН от 21.02.2003 № 62 "Об итогах конкурса интеграционных проектов СО РАН 2003 г.". — http://www.sbras.ru/win/anonses/841.htrril.

108. Постановление Президиума СО РАН от 26.01.2006 № 32 "Об интеграционных проектах, выполняемых по заказу Президиума СО РАН". — http://www.sbras.ru/win/anonses/1334.html.

109. Постановление Президиума СО РАН от 09.02.2006 № 54 "Об итогах конкурса комплексных интеграционных проектов СО РАН-2006". — http://www.sbras.ru/win/anonses/1341.html.

110. Постановление Президиума СО РАН от 09.02.2006 № 55 "Об итогах конкурса междисциплинарных интеграционных проектов СО РАН-2006". http://www.sbras.ru/win/anonses/1342.html.

111. Постановление Президиума СО РАН от 15.01.2009 № 9 "Об итогах конкурса междисциплинарных интеграционных проектов фундаментальных исследований СО РАН на 2009-2011 гг." — http: / /www. sbr as. г и/win/anonses /1921. html

112. Постановление Президиума СО РАН от 15.01.2009 № 10 "Об итогах конкурса проектов, выполняемых совместно со сторонними научными организациями, на 2009-2011 годы". — http: / / www.sbras.ru / win/anonses/1922.html

113. Раскина A.A., Солодовник М.П. Логико-лиигвистические аспекты проблемы обработки вопросов в фактографической ИПС // Вопросы информационной теории и практики. — 1979. — № 42.

114. Российская сеть трансфера технологий. -- http://www.rttn.ru/.

115. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. — М.: Наука, 1989.

116. Рубцов Д.Н., Барахнии В.Б. Выявление дубликатов в разнородных библиографических источниках // Вестник НГУ. Сер.: Информационные технологии. — 2009. — Т. 7. — Вып. 3. — С. 8693.

117. Садовский В.Н. Основания общей теории систем. — М.: Наука, 1974.

118. Садовский В.Н. Система // В кн.: Философский энциклопедический словарь. — М.: Советская Энциклопедия. 1983. — С. 610611.

119. Сайт Большого Театра. — http://www.bolshoi.ru.

120. Сайт Екатеринбургского государственного академического театра оперы и балета. — http://www.uralopera.ru/.

121. Сайт журнала "Вычислительные технологии". — http: //www.ict.nsc.ru/jct/.

122. Сайт Мариииского театра, — http://www.iriariinsky.ru/.

123. Сайт "Научные сотрудники математики СО РАН". — http: //www.sbras.ru/sbras/mathsoran/.

124. Сайт Новосибирского государственного академического театра оперы и балета. — http://www.opera-novosibirsk.ru/.

125. Сайт "Организации СО РАН".http://www.sbras.ru/sbras/db/dep.phtml73-f-rrus.

126. Сайт "Перечень важнейших разработок СО РАН, предлагаемых для широкого использования".http: / /www.sbras.ru/win/sbras/main-work.html.

127. Сайт "Члены Российской академии наук", http: / / www. ras. ru / members, aspx.

128. Самарский A.A. Задачи прикладной математики на современном этапе развития // Коммунист. — 1983. — № 18. — С.31-42.

129. Сеть передачи данных Сибирского отделения РАН. — http://www.ac-tel.ru/mw/index.php/Введеиие.

130. Словарь "Лингво" компании "Яндекс". hUp://lingvo.yandex.ru.

131. Словарь по кибернетике. 2-е изд., переработанное и дополненное. -- Киев: Главная редакция Украинской Советской Энциклопедии им. М.П. Бажана, 1989.

132. Словарь русского языка для Ispell. —http: / / semiconductors.phys.msu.su / ~swan / orthography.html.

133. Социоист. — http://socionet.ru/.

134. Спиркии А. Г. Знание //В кн.: Философский энциклопедический словарь. — М.: Советская Энциклопедия. 1983. — С. 192.

135. Список крупнейших компаний России журнала "Эксперт". — http://www.raexpert.ru / rankingtable/?tablefolderexpert400/2009/main/.

136. Стимер компании "Яндекс". —http: //company.yandex.ru / technology / mystem/.

137. Тезаурус по гетерогенному катализу. — http://www.ca,talysis.ru:80/thezaurus/application/.

138. Технология //В: Большой академический словарь. — СПб: Научное изд. Большая Российская энциклопедия, 2003. — С. 2000.

139. Технология // В: Тезаурус по образованию и педагогике. — Институт информатизации образования в составе Московского государственного гуманитарного университета имени М.А.Шолохова. — http://www.mgopu.ru/inmfo/r3 thesaurus.htm^technology.

140. Толчеев В.О. Модели и методы классификации текстовой информации // Информационные технологии. — 2004. — № 5. — С. 6-14.

141. Тузов В.А. Компьютерная семантика русского языка. СПб.: Изд-во СПбГУ, 2004.

142. Ульман Дж. Основы систем баз данных / Пер. с англ. — М.: Финансы и статистика, 1983.

143. Университетская информационная система РОССИЯ. — http://www.cir.ru/index.jsp.

144. Уст,ав Российской академии наук. Утвержден Постановлением Правительства РФ от 19 ноября 2007 г. JY2 785. — http: / / www.ras.ru/about / rascharter.aspx.

145. Федотов A.M. Методологии построения распределенных систем // Вычислительные технологии. — 2006. — Т. 11. — Специальный выпуск. — С. 3-16.

146. Федотов A.M., Артем,ов И.А., Ермаков Н.Б., Красников A.A., Потемкин О.И., Рябко Б.Я., Федотов A.A., Хорее А.Г. Электронный атлас "Биоразнообразие растительного мира Сибири" // Вычислительные технологии. — 1998. — Т. 3. — № 5. — С. 68-78.

147. Федотов A.M., Барахнин В.Б. К вопросу о поиске документов "по аналогии" // Вестник НГУ. Сер.: Информационные технологии. 2009. - Т. 7. - Вып. 4. - С. 3-14.

148. Федотов A.M., Барахнин В.Б. Проблемы поиска информации: история и технологии // Вестник НГУ. Сер.: Информационные технологии. 2009. - Т. 7. - Вып. 2. - С. 3-17.

149. Федотов A.M., Барахнин В.Б., Гуськов А.Е., Молородов Ю.И. Распределенная информационно-аналитическая среда для исследований экологических систем // Вычислительные технологии. — 2006. — Т. 11. — Специальный выпуск. — С. 113-125.

150. Фейгип Д. Концепция SOA / llep. с англ. // Открытые системы. 2004. - № 6. - http://www.oap.ru/os/2004/06/184447 /pl.html.

151. Физическая энциклопедия в 5 томах. — М.: Российская энциклопедия, 1998.

152. Фомичев В.А. Метод формального описания содержания сложных естественно-языковых текстов и его применение к проектированию лингвистических процессоров. Автореф. . доктора техн. наук: 05.13.11. — Москва, 2005.

153. Химическая энциклопедия в 5 томах. -- М.: Российская энциклопедия, 1998.

154. Холл АД., Фейдоюин P.E. Определение понятия системы / Пер. с англ. //В кн.: Исследования по общей теории систем. М.: Прогресс, 1969. - С. 252-282.

155. Хохлов Ю.Е., Арнаутов С.А. Обзор форматов метаданных // Российские электронные библиотеки. — http://www.elhib.ru/ index. phtml?page=elbib/rus/methodology/mdrev.

156. Цапенко М.П. Измерительные информационные системы. — М.: Энергоиздат, 1985.

157. Цикритзис Д., Лоховски Ф. Модели данных / Пер. с англ. — М.: Финансы и статистика, 1985.

158. Циликов И.С. Разработка модели представления, методов и алгоритмов интеллектуальной обработки текста с целью его формализации в информационных системах. Автореф. . кандидата техн. наук: 05.13.01. — Санкт-Петербург, 2010.

159. Черняк Л. От информационно-поисковых систем к корпоративному поиску // Открытые системы. — 2005. — № 11. — http://www.osp.ru/os/2005/ll/380532/.

160. Шокин Ю.И., Белов С.Д., Чубарое Л.Б. Предварительные результаты тестирования создаваемой системы мониторинга и сбора статистики СПД СО РАН // Вычислительные технологии. — 2007. Т. 12. — № 5. - С. 126-134.

161. Шокин, Ю.И., Федотов A.M. Интеграция информационно-телекоммуникационных ресурсов Сибирского отделения РАН // Вычислительные технологии. — 2003. — Т. 8. — Специальный выпуск. — С. 161-171.

162. Шокин Ю.И., Федотов A.M. Информационная система Сибирского отделения РАН // Труды Второй всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" (RCDL'2000). — Протвино, 2000. С. 6-14.

163. Шокин Ю.И., Федотов A.M. Информационные ресурсы Сибирского отделения РАН // Информационные ресурсы России. — 1999. Т. 9. - № 4. - С. 12-16.

164. Шокин Ю.И., Федотов A.M. Информационные технологии Internet. // Вычислительные технологии. — 1997. — Т. 2. — 3.- С. 80-87.

165. Шокин Ю.И., Федотов A.M. Развитие распределенных информационно-вычислительных ресурсов в СО РАН // Вычислительные технологии. — 2004. — Т. 9. — Специальный выпуск.- С. 10-23.

166. Шокин Ю.И., Федот,ов A.M. Распределенные информационные системы // Вычислительные технологии. — 1998. — Т. 3. — № 5.- С. 79-93.

167. Шокин Ю.И., Федот,ов A.M., Барахнин В.Б. Особенности организации системы управления веб-контентом сайтов информационной поддержки инновационной деятельности // Вычислительные технологии. — 2005. — Т. 10. — Специальный выпуск. — С. 122-128.

168. Шокин Ю.И., Федот,ов A.M., Барахнин, В.Б. Технология создания программных систем информационного обеспечения научной деятельности, работающих со слабоструктурированными документами // Вычислительные технологии. — 2010. — Т. 15. -№ 6. С. 111-125.

169. Шокин Ю.И., Федотов A.M., Клименко O.A., Барахнин В.Б., Мазов H.A. Информационная система виртуального музея СО РАН // Труды IV Всероссийской научно-практической конференции "Информационные недра Кузбасса". — Кемерово, 2005.- С. 43-44.

170. Шрейдер Ю.А. Информация и метаинформация // Научно-техническая информация. Сер. 2. — 1974. — № 4. — С. 3-10.

171. Шрейдер Ю.А. К определению системы // Научно-техническая информация. Сер. 2. — 1971. № 7. - С. 3-8.

172. Шрейдер Ю.А. О количественных характеристиках семантической информации // Научно-техническая информация. Сер. 2.- 1963. № 10. - С. 35-39.

173. Шрейдер Ю.А. О семантических аспектах теории информации //В сб.: Информация и кибернетика. — М.: Советское радио, 1967. С. 15-47.

174. Шрейдер Ю.А. Об одной модели семантической информации// В сб.: Проблемы кибернетики. — Вып. 13. — М.: Наука, 1965. — С. 233-240.

175. Шрейдер Ю.А. Равенство, сходство, порядок. — М.: Наука, 1971.

176. Шрейдер Ю.А., Шаров А.А. Системы и модели. — М.: Радио и связь, 1982.

177. Электронная библиотека MathTrec. — http://www.mathtree.ru.

178. Электронный атлас биоразнообразия животного и растительного мира Сибири. — http://www.sbras.ru/win/elbib/bio/.

179. Ядов В.А. Потребности // Большая Советская Энциклопедия, изд. 3. М.: Советская Энциклопедия, 1975. Т. 20. - С. 439-400.

180. Янеико II.Н. Методологические вопросы современной математики // Вопросы философии. — 1981. — № 8. — С. 60-68.

181. Ackoff R., Emery F. On Purposeful Systems. Ch.-N.Y.: Aldine -Atherton, 1972. /Рус. пер. Акофф P., Эмери Ф. О целеустремленных системах — М.: Советское радио, 1974.

182. Alexander С. et al. A Pattern Language Towns, Buildings, Constructions. N.Y.: Oxford University Press, 1977.

183. Beck K., CunninghamW. Using Pattern Languages for Object-Oriented Programs // In: OOPSLA-87 Workshop on the Specification and Design for Object-Oriented Programming. — http: //c2.com/doc/oopsla87.htinl.

184. Berners-Lee Т., Fielding R., Masinter L. Uniform Resource Identifiers (URI). Generic Syntax // RFC 2396. 1999. -http: / / www.ietf.org/rfc/rfc2396.txt.

185. Berriier C.L. Correlative indexes II: Correlative trope indexes // American Documentation. 1957. — V. 8. — N° 1. - P. 47-50.

186. Bertalanffy L. von. Problems of General System Theory // Human Biology. 1951. - 23. - P. 302-312.

187. Bertalanffy L. von. Conclusion // Human Biology. — 1951. — № 23. P. 336-345.

188. Brillouin L. Science and information theory. — N.Y.: Academic Press, 1956. / Pyc.nep. Бриллюэн Л. Наука и теория информации. — М.: Физматгиз, 1960.

189. The CERIF (Common European Research Information Format) Standard. — http://www.eurocris.org/en/taskgroups/cerif/new6/ new0/C%3A%5CDocuments+and+Settmgs%5Ceg53%5CDesktop% 5CCERIF2000part2.pdf.

190. Chen P.P. The entity-relational model. Toward a unified view of data // ACM TODS. 1976. - № 1. - P. 9-36. / Рус. пер. Чей П. П.-Ш. Модель "сущность-связь" - шаг к единому представлению данных // СУБД. - 1995. - № 3. - С. 137-158.

191. Codd E.F. A relational model of data for large shared data banks // Comm. ACM. 1970. - V. 13. - № 6. - P. 377-387. / Рус. пер. Кодд E. Ф. Реляционная модель данных для больших совместно используемых банков данных // СУБД. — 1995. — № 1. — С. 145160.

192. Community Research and Development Information Service. — http: //cordis.europa.eu/.

193. The COSINE and Internet X.500 Schema // RFC 1274. -http://www.networksorcery.com/enp/rfc/rfcl274.txt.

194. Crescenzi V., Mecca G., Merialdo P. Roadrunner: Towards automatic data extraction from large web sites // In: The VLDB Journal. Rome, 2001. - P. 109-118.

195. Definition of the inetOrgPerson LDAP Object Class // RFC 2798. — http://www.faqs.org/rfcs/rfc2798.html.

196. Dublin Core Metadata Initiative. — http://dublincore.org/.

197. European Research Gateways Online. -http: / / www.cordis.europa.eu/ergo.

198. Gitt W. Ordnung und Information in Technik und Natur // In: Gitt W. (Hrsg.): Am Anfang war die Information. Gräfeling: Resch KG, 1982. S. 171-211.

199. Global Information Locator Service (GILS). — http://www.gils.net/.

200. Gruber T. A translation Approach to Portable Ontology Specifications // Knowledge Acquisition Journal. — 1993. — V. 5.- № 2. P. 199-220.

201. ISO/IEC 11179, Specification and Standardization of Data Elements. — ftp://sdct-sunsrvl.ncsl.nist.gov/x318/11179.

202. I spell Spell checker. - http://directory.fsf.org/ispell.html.

203. Krogstle J. HaJpin T., Siau K. Information Modeling Methods and Methodologies. — Idea group publishing, 2005.

204. Langefors B. Infologocal models and information user views // Information Systems. 1980. - № 5. - P. 17-32.

205. Langefors B. Managment information system design // I AG Quart.- 1969. V. 2 - M 4. - P. 5-17.

206. Langefors B. Some approaches to the theory of information systems // BIT. 1963. - № 3. - P. 229-254.

207. Leonova Yu. V., Barakhnin V.B., Fedotov A.A4. On the problem of modeling of the horizontal relations between documents // Вычислительные технологии. — 2007. — T. 12. — № 1. — С. 3-12.

208. Library of Congress. — http://www.loc.gov/.

209. Lightweight Directory Access Protocol (v3) // RFC 2251. -http: / / www.faqs.org/rfcs / rfc2251.html.

210. The MacTutor History of Mathematics archive. — http://www-history.mcs.st-and.ac.uk.

211. The Mathematics Genealogy Project. — http: / / www.genealogy.ams.org.

212. Mathematics Subject Classification. — http://www.ams.org/msc/.

213. Miller G.F. The Magical Number Seven, Plus or Minus Two // The Psychological Review. — 1956. — Vol. 63. — P. 81-97. / Рус. пер, Миллер Дж. Магическое число семь, плюс или минус два //В кн.: Инженерная психология. — М.: Прогресс, 1964. — С. 192— 225.

214. Price D.J, de Solla. Little Science, Big Science. — N.Y., L.: Columbia Univ. Press, 1963. / Рус. пер. Прайс Д. Малая наука, большая наука // Наука о науке. — М.: Прогресс, 1966. —■ С. 281-385.

215. Resource Description Framework (RDF) Model and Syntax Specification. W3C Recommendation 22 February 1999. — http://www.w3.org/TR/1999/REC-rdf-syntax-19990222/.

216. Resource Resource Description Framework (RDF) Schema. Specification 1.0. W3C Candidate Recommendation 27 March 2000 http://www.w3.org/TR/2000/CR-rdf-schema-20000327/.

217. Roget P.M. Thesaurus of English Words and Phrases classified and arranged so as to facilitate the expression of ideas ahd to assist in literary composition. London, 1852.

218. Sahugvet A., Azavant F. Building intelligent web applications using lightweight, wrappers // Data Knowledge Engineering. — 2001. — V. 36. -m 3. P. 283-316.

219. Salton G. Automatic Information Organization and Retrieval. — N.Y.: McGraw-Hill Book Co., 1968. / Рус. пер. Сэлтон Г. Автоматическая обработка, хранение и поиск информации. — М.: Советское радио, 1973.

220. Salton G. Dynamic Information and Library Processing. — N.J.: Prentice Hall, 1975. / Рус. пер. Солтоп Дою. Динамические библиотечно-информационные системы. — М.: Мир. 1979.

221. Schramm W. Information Theory and Mass Communication // In: Communication and Culture. — N.Y.: Holt, Rinehart & Winston, 1966. P. 521-534.

222. Segalovich I. A Fast Morphological Algorithm with Unknown Word Guessing Induced by a Dictionary for a Web Search Engine // Proceedings of the International Conference on Machine Learning;

223. Models, Technologies and Applications. MLMTA:03, June 23-26, 2003, Las Vegas. Nevada, USA. CSREA Press, 2003. - S. 273-280.

224. Semantic Web. — http://www.w3.org/2001/sw/.

225. Staab S., Stuckenschmidt H. (Eds.). Semantic Web and Peer-to-Peer, Decentralized Management and Exchange of Knowledge and Information. — Springer, 2006.

226. Task Force on Metadata. Summary Report // American Library Association. — 1999. — T. June.

227. Top 300 R&D European Institutes. -http: / / research. webometrics.info/top300r&deurope.asp.

228. Universal Decimal Classification. — http://www.udcc.org/.280. vCard: The Electronic Business Card. ~~ http://www.imc.org/pdi/.

229. Web of Science. -http://wokinfo.com/productstools/multidisciplinary/wcbofscience/.

230. Webster's New World Dictionary of Computer Terms. 4th ed. — N.Y.: Prentice Hall, 1992.

231. Welly C. McGuinness D., Uschold M., Griming er M., Lehmann F. Ontologies: Expert Systems all over again // AAAI-T999 Invited Panel Presentation. — 1999.284. Zentralblatt MATH. http://www.zentralblatt-math.org/zmath/en/.

232. Zt.hes: a Z39.50 Profile for Thesaurus Navigation. http://lcweb.loc.gov/z3950/agency/profiles/zthes-04.html.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00