Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки

Сбойчаков, Константин Олегович

автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки

кандидата технических наук: Сбойчаков, Константин Олегович
город: Москва
год: 2003
специальность ВАК РФ: 05.25.05

Диссертация по документальной информации на тему «Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки»

Автореферат диссертации по теме "Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки"

На правах рукописи

Сбойчаков Константин Олегович

Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки

05.25.05 - информационные системы и процессы, правовые аспекты информатики

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

МОСКВА-2003

Работа выполнена на кафедре информационных технологий и электронных библиотек Московского государственного университета культуры и искусств.

Научный руководитель:

кандидат технических наук А.О. Адамьянц

Научный консультант:

доктор физико-математических наук, профессор П.П. Макагонов

Официальные оппоненты: доктор технических наук,

профессор А.Н. Павлов кандидат технических наук Г.З. Залаев

Ведущая организация: Государственная публичная научно-техническая библиотека Сибирского отделения Российской академии наук

Защита состоится 28 января 2004 года в 11 часов на заседании диссертационного совета Д 210.010.01 при Московском государственном университете культуры и искусств по адресу: 14140, Московская область, г. Химки - 6, ул. Библиотечная 7, ауд. 218 (новый корпус).

С диссертацией можно ознакомиться в научной библиотеке Московского государственного института культуры и искусств.

Автореферат разослан " " 2003 г.

Ученый секретарь

диссертационного совета В.Т. Клапиюк

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В последние годы количество текстовой информации в электронном виде возросло настолько, что возникает угроза ее обесценивания в связи с трудностями поиска требуемых сведений среди множества доступных текстов. В настоящее время все большее распространение получают полнотекстовые базы данных. Крупные образовательные центры организуют в Интернете для студентов и сотрудников базы научных статей, авторефератов, многие организации предоставляют доступ к ресурсам электронных библиотек, оргкомитеты конференций публикуют тысячи полных текстов докладов и т.п.

Данная работа исследует проблему и предлагает научно-обоснованную методику создания полнотекстовых баз данных на основе текстовой информации, накопленной в электронном виде. В данной диссертации предполагается рассматривать полнотекстовые базы данных, создаваемые библиотекой, как часть электронного фонда библиотеки, а электронный фонд, по существу, есть часть общего фонда библиотеки со всеми приданными ему характеристиками. В общедоступных библиотеках такой массив текстов документов обычно возникает как результат сканирования текстов по частным заказам пользователей. С возрастанием объемов накопленной информации возникает задача смыслового поиска и экспертного статистического анализа данных с целью предоставить пользователю возможность правильно ориентироваться в среде электронных фондов большого объема, а эксперту - возможность выделять подклассы текстов по заданной тематике (в дальнейшем - естественно-тематические группы текстов).

В настоящее время в мире существуют и активно развиваются системы смыслового поиска в полнотекстовых базах данных, которые поддерживаются ведущими фирмами - производителями серверов баз данных, например, Oracle, Microsoft, IBM и др. Такие системы строятся на основе многомерных хранилищ, из которых данные извлекаются и обрабатываются с помощью алгоритмов для заранее определенных субъект-объектных отношений между ними. Крупные поисковые серверы в Интернете (например, Yahoo, Yandex) поддерживают алгоритмы поиска текстов "схожих" с данным и расчета релевантности найденных документов исходному запросу. Специализированные системы полнотекстового анализа (например, в России это "Следопыт", "ТекстАналист") позволяют проводить автоматическую классификацию и реферирование текстов.

Разработанность проблемы. Исследования в области автоматической обработки текстов в Европе и США привлекают внимание крупнейших частных фирм и государственных организаций самого высокого уровня. Европейский Союз уже несколько лет координирует различные программы в области автоматической обработки текстов (например, проект IST, 1998-2001 гг.). В США с 1991 по 1998 гг.

существовал проект TIPSTER, организованный Департаментом обороны совместно с Национальным институтом стандартов и технологий и Центром военно-воздушных и военно-морских вооружений. В работе консультативного совета этого проекта участвовали также ФБР, Национальный научный фонд и некоторые другие организации. Основной целью проекта было сравнение и оценка результатов работы различных поисковых систем и систем реферирования. По результатам проекта был опубликован подробный обзор и даны рекомендации по использованию этих систем. В США среди систем подобного рода наиболее известной является электронная архивная система "Excalibur RetrievalWare" производства компании Excalibur Technologies. Программные продукты этой компании используются Госдепартаментом, Библиотекой Конгресса, ЦРУ, компаниями Ford Motors, Lockheed, Reynold Electrical & Engineering, Maine Yankee Atomic Power.

Создание систем смыслового анализа текстов до настоящего времени происходит с минимальным участием лингвистов. Это обусловлено использованием для решения этой задачи в основном статистических методов. Области, в которых наиболее сильны позиции профессиональных лингвистов, это в первую очередь лексико-грамматический и синтаксический анализ предложения, нахождение имен собственных в тексте и автоматическое реферирование. Научный и практический опыт лингвистов получил широкое применение в системах автоматического перевода и контекстного анализа, при создании тезаурусов и словарей, и т.д. Наиболее известные лингвистические программные продукты на рынке России:

• "Retrans Vista" - система автоматизированного перевода текстов. Система базируется на технологии фразеологического перевода компании "Виста Текнолоджиз", образованной специалистами из Всероссийского института научной и технической информации Российской Академии наук (ВИНИТИ РАН), стоящими у истоков создания отечественной компьютерной лингвистики. Группа этих специалистов под руководством профессора Г. Г. Белоногова начала разрабатывать основы технологии машинного перевода более 20 лет назад;

• "MediaLingua", "ABBYY Lingvo" - электронные словари;

• "PROMT" - системы машинного перевода;

• развитые средства контроля орфографии "Microsoft Word";

• в научно-производственном центре "Интелек Плюс" ведется разработка информационно-поисковых систем (ИПС), ориентированных на естественно-языковое общение с пользователем.

Современные системы смыслового анализа текстов, особенностью которых являются: предпочтение скорости обработки текстов точности семантического и морфологического анализа, статистический частотный

анализ словоупотреблений, автоматическая классификация текстов, расчет релевантности текстов поисковому запросу - можно выделить в отдельный класс, к которому относится и система, разработанная автором данной диссертации.

В России работы по смысловому анализу текстов только начинают проводиться, главным образом они ведутся:

• в Институте программных систем РАН. Разработана система "Кластер" для формирования концептуального представления предметной области на основе анализа проблемно-ориентированных естественно-языковых текстов;

• в корпорации "Галактика". Разработана автоматизированная система поиска и аналитической обработки информации "Galaktika-ZOOM". Это дорогая коммерческая система, имеющая клиентов в рекламном бизнесе, органах управления и средствах массовой информации;

• в компании "Гарант-Парк-Интернет". Разработаны программные продукты для анализа и классификации текстов, автоматического реферирования, морфологического, синтаксического и семантического анализа текста, для навигации по большим массивам текстов;

• в Научно-производственном инновационном центре "МикроСистемы". Разработана система "ТекстАналист". Система осуществляет построение семантической сети понятий, выделенных в обрабатываемом тексте, смысловой поиск фрагментов текста с учетом скрытых в тексте смысловых связей со словами запроса, автоматически реферирует текст;

• в компании "MediaLingua". Разработана интеллектуальная система "СЛЕДОПЫТ", служащая для быстрого поиска текстовых фрагментов документов в больших объемах информации. В качестве запроса могут использоваться фразы на естественном языке;

• в Московском специализированном Центре новых информационных технологий на базе Московской медицинской академии им. И.М. Сеченова. Разработана система "КЛЮЧИ ОТ ТЕКСТА" - для смыслового поиска и индексирования текстовой информации в электронных библиотеках;

• в компании "Yandex". Предлагается набор средств полнотекстовой индексации и поиска в текстовых данных с учетом морфологии русского и английского языков. Средства предназначены для работы с большими объемами русских или английских текстов всех типов в виде файлов различных форматов, полей баз данных и страничек Интернета.

Подробные сведения об этих и других распространяемых программных продуктах содержатся в каталоге, составленном С.В. Логичевым [http://davidsonyuliya.boom.ru/catalog.htm]. Каталог включает описание программ, связанных с анализом текстов и

вычислительной лингвистикой, а также соответствующих ресурсов, доступных в Интернете.

В настоящее время в стране сложилась ситуация, когда системы автоматизации библиотек, как правило, не поддерживают технологии автоматизированного смыслового анализа текстов, а современные системы анализа текстов не адаптированы к работе с системами автоматизации библиотек, при этом стоимости тех и других как коммерческих продуктов сопоставимы. Это делает целесообразным расширение возможностей систем автоматизации библиотек за счет включения в них средств смыслового анализа текстов.

Исходя из этого, в данном диссертационном исследовании была сформулирована цель работы: исследование, разработка и научно-практическое обоснование алгоритмов и методики автоматизированной смысловой обработки текстов и внедрение их в технологию обработки электронных фондов библиотек.

В соответствии с этой целью решались следующие задачи:

• разработка и обоснование методики создания полнотекстовых баз данных;

• разработка и обоснование общей методики смыслового анализа текстов;

• разработка и программная реализация автоматизированной системы эвристического анализа числовых данных;

• разработка и программная реализация алгоритмов классификации текстов;

• адаптация автоматизированной системы смыслового анализа текстов для работы с электронными фондами библиотеки в среде системы автоматизации библиотек ИРБИС.

Данная работа является синтезом нескольких независимых исследований, которые проводились автором. Прежде всего автором, совместно с П.П. Макагоновым, была разработана система визуального эвристического анализа числовых данных, названная Visual HCA [1]. Данная система адресована эксперту, которому необходимо решить слабоформализованную задачу классификации на основе создания и структуризации числовой модели. Автором были исследованы потребности библиотек, и как разработчик систем автоматизации автор поставил цель прикладного применения Visual HCA для создания системы полнотекстового анализа электронных фондов библиотек. Совместно с П.П. Макагоновым были развиты алгоритмы смыслового анализа текстов на основе идеи естественно-тематической классификации проблемно-ориентированных текстов [2,4,6-9]. Автор является одним из разработчиков системы автоматизации библиотек ИРБИС, которая создана в ГПНТБ России коллективом специалистов под руководством Я.Л. Шрайберга. В соавторстве с A^. Бродовским, HA. Мазовым и O^. Жижимовым были разработаны формат хранения данных и

полнофункциональная библиотека доступа к базам данных ИРБИС64, позволяющие создавать базы данных большого объема [12]. Завершающим этапом работы явилось создание системы смыслового анализа текстов и интеграция ее в систему автоматизации библиотек ИРБИС [11,13].

Научная новизна данной диссертационной работы состоит в том, что исследована проблема и разработан алгоритм классификации текстов и соответствующая методика смыслового анализа текстов. Впервые в качестве метода составления поискового образа текста был определен отбор слов на основе частотного словаря общеупотребительной лексики.

Задача автоматического определения тематической принадлежности текстов решена на основе расчета и эвристического анализа меры близости текстов к словарю предметной области.

Предложена концепция применения ряда независимых эвристических алгоритмов для структуризации числовых данных, что увеличивает достоверность результатов работы системы смыслового анализа.

На защиту выносятся следующие основные положения:

1. Задачи смыслового анализа и тематической классификация текстов относятся к слабоформализованным и должны решаться с помощью эвристических (с участием эксперта) алгоритмов.

2. Смысловой полнотекстовый анализ является необходимой частью современной системы автоматизации библиотек.

3. Разработанные алгоритмы позволяют в условиях библиотеки автоматизировать создание полнотекстовых баз данных (без привлечения сторонних специалистов) и предоставить читателям библиотеки сервис в виде полнотекстового поиска и смыслового поиска текстов, близких к заданному тексту-образцу. Теоретическая значимость исследования состоит в обобщении

имеющегося опыта применения математической статистики для смысловой обработки текстов; в развитии и обогащении научного представления о значимости анализа текстов для информационно-поисковых систем, применяемых в библиотеках.

Практическая значимость состоит в том что, созданы и опубликованы в Интернете на сайте ГПНТБ России полнотекстовые базы данных докладов конференции "Крым 2002-2003" и статей сборника НТБ ГПНТБ России. Общее число текстов в базах 1300. Время, затраченное на создание баз данных и тематическую классификацию текстов по методике, разработанной в диссертационном исследовании, составило один рабочий день, тогда как на создание библиографических описаний этого же объема документов пришлось бы потратить не менее 60 дней.

В результате диссертационного исследования разработана полнофункциональная библиотека доступа к базам данных, которая используется в клиент-серверной версии системы автоматизации библиотек ИРБИС - ИРБИС64.

Разработана система визуального эвристического анализа числовых

данных, которая неоднократно применялась на практике при решении экспертных задач в различных областях знаний. При этом на каждую из задач тратилось от 2 часов до 2 дней. Решение тех же задач традиционными методами требовал нескольких месяцев работы и не всегда позволял выявить те же закономерности в предметной области. В рамках расширения возможностей системы визуального эвристического анализа разработана программа "Визуальный трехмерный анализ временных измерений на плоскости (Visual HCA 3D)", которая используется в учебном процессе Российской академии государственной службы при Президенте Российской Федерации (акт о внедрении прилагается).

Апробация результатов исследований состояла в публикации материалов исследований в отечественных и зарубежных периодических изданиях, в выступлениях с докладами на отечественных и зарубежных конференциях и опубликовании текстов этих докладов.

Основные результаты диссертационной работы были представлены на следующих международных конференциях:

• "Крым 2000", "Крым 2001", "Крым 20002", "Крым 2003" "Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества" (г.Судак, Украина, Автономная республика Крым).

• "ЛИБКОМ 2001", "ЛИБКОМ 2002", "ЛИБКОМ 2003" "Информационные технологии, компьютерные системы и издательская продукция для библиотек" (Ершово, Московская область).

• "Иссык-Куль 2003" "Библиотеки и демократизация общества: библиотечно-информационное обслуживание в век информатизации" (г.Чолпан-Ата, Кыргызстан).

Структура работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложения.

ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ

В первой главе "Автоматизированная система смысловой обработки текстов" проведен обзор существующих программных продуктов для смыслового анализа текстов. Сделан вывод о необходимости расширять возможности существующих в России систем автоматизации библиотек за счет включения в них средств смыслового анализа текстов.

Основная идея предлагаемой автоматизированной системы смыслового анализа текстов основана на тенденции любой информации объединяться в тематические группы "по интересам". Это явление отражает тот факт, что различные отрасли знаний имеют свой внутренний, присущий им язык (терминологию). В данной главе научно обоснована

возможность использования математической статистики для выделения естественно-тематических групп из однородной массы текстового материала.

Далее в главе приводится описание разработанных подходов к решению задачи смысловой обработки текстов:

• создание полнотекстовой базы данных из массива текстов;

• естественно-тематическая классификация текстов на основе выделения значимых терминов предметной области по признаку превышения общеупотребительной частоты;

• представление информации о распределении слов в текстах в числовом виде и структуризация этой информации с помощью алгоритмов решения слабоформализованных задач.

В главе приводится подробная методика работы автоматизированной системы смысловой обработки текстов. Выделены следующие этапы этой работы:

• создание из массива текстов полнотекстовой базы данных и индексация слов из текстов;

• выделение значимых терминов по критериям превышения общеупотребительной частоты и распределения по текстам;

• создание естественно-тематических предметно-ориентированных словарей.

В результате использования предлагаемой системы полнотекстовые электронные ресурсы библиотеки становятся частью поискового пространства, доступного читателю библиотеки. Кроме поиска по словам из текстов, читатель получает дополнительную возможность находить тексты, близкие к заданному образцу. В качестве текста образца может выступать поисковый запрос читателя на естественном языке, произвольный полный текст (внешний по отношению к базе данных) или текст из базы данных.

Помимо конечного пользователя (читателя) система ориентирована на пользователя-эксперта, в задачу которого входит предварительная работа по созданию полнотекстовой базы данных и естественно-тематическая классификация текстов.

Подробней работу эксперта можно представить следующим образом. Первым шагом является создание полнотекстовой базы данных и на ее основе - базового словаря. Базовый словарь - это набор слов из исходного массива текстов, частота встречаемости которых превышает общеупотребительную частоту. Общеупотребительная частота слов берется из заранее заготовленного словаря общеупотребительной лексики, созданного на основе представительного массива газетных текстов. Создаваемый базовый словарь включает слова из всех тематических подъязыков, использованных авторами текстов. Рекомендуется ограничивать создаваемую базу данных по тематике, иначе естественно-тематические группы не удается выделить статистически значимо (так как

для этого надо иметь очень большое количество текстов).

На основе базового словаря создаются предметно-ориентированные словари, которые служат основным инструментом классификации текстов. Прежде всего определяется общий предметно-ориентированный словарь, в который включаются слова из базового словаря, прошедшие через заданные экспертом критерии отбора. Последовательность применения критериев отбора слов следующая:

• максимальное число значимых текстов - это максимально допустимое число текстов, в которых встретилось слово. Этот критерий позволяет выделить слова, специфичные только для части текстов;

• минимальное число значимых текстов - это минимально допустимое число текстов, в которых встретилось слово. Этот критерий, фактически совпадая с нижней статистической границей встречаемости слова, позволяет отбрасывать слова, специфичные для малого (по сравнению с исходным) количества текстов;

• относительная частота словоупотребления - это превышение фактической частоты словоупотребления над общеупотребительной в процентах.

Далее рассчитывается числовая матрица текст\слово, элементом которой является частота встречаемости данного слова из общего предметно-ориентированного словаря в данном тексте. На основе матрицы текст\слово рассчитываются квадратные симметричные матрицы слово\слово и текст\текст. Элементом матрицы текст\текст является число слов из общего предметно-ориентированного словаря, которые встретились в паре данных текстов. Элементом матрицы слово\слово является число текстов, в которых встретилась данная пара слов. На основе матрицы слово\слово определяются частные предметно-ориентированные словари, а на основе матрицы текст\текст определяются тематические группы текстов и тексты-представители (тематические ядра) для данной группы.

Предметно-ориентированные словари, включающие слова с повышенной (по сравнению с общеупотребительной лексикой) частотой встречаемости, являются новым поисковым инструментом работы с текстами. Распределение терминов предметно-ориентированного словаря по данному тексту является его поисковым образом, который автоматизированная система представляет в числовом виде. Данное числовое представление является начальной точкой работы алгоритмов сравнения текстов и классификации текстов на основе системы визуального эвристического анализа.

Несколько слов о накоплении исходной текстовой информации, необходимой для достоверной классификации. Практика работы с системой показывает, что минимальный объем текстовой информации для организации естественно-тематической классификации составляет 10 Мб, а размер одного текста должен быть не менее 5 КЬ и не более 100 КЬ (при

большем объеме текста имеют место повторения терминологии и/или расширение тематики). В процессе накопления текстовой информации без существенного изменения ее тематики система естественным образом стремится к устойчивому набору предметно-ориентированных словарей, которые в свою очередь могут подвергаться дроблению по тематической иерархии.

С ростом объема информации однородной тематики автоматизированная система позволяет сравнивать тексты, не изменяя предметно-ориентированных словарей.

Особенности работы автоматизированной системы смысловой обработки текстов в диссертации иллюстрируются на примере набора статей социологической и экологической тематики.

Во второй главе "Система визуального эвристического кластерного анализа Visual HCA" приводится описание методики работы с системой визуального эвристического кластерного анализа (Visual Heuristic Cluster Analysis), разработанной автором совместно с П.П. Макагоновым [1]. Visual HCA применяется в системе смыслового анализа текстов для тематической классификации текстов.

Используя программу эвристического кластерного анализа, эксперт определяет естественно-тематические группы путем структуризации числовых матриц, отражающих распределение слов по текстам. Такая структуризация носит название кластеризации; кластер - это группа объектов, которая может быть выделена из общей массы на основании каких-либо критериев. В нашем случае объектами служат тексты базы данных или слова из текстов. Группы текстов в кластере дают информацию о том, какие темы, пока еще не сформулированные на естественном языке, представлены в полнотекстовой базе данных. Группы слов в кластере составляют предметно-ориентированные словари для описания этих тем.

В главе показано, что в силу неоднозначности и контекстной зависимости естественного языка задача смысловой обработки текстов относится к разряду слабоформализованных. Такие задачи отличаются неопределенностью постановки и отсутствием формализованных математических (аналитических) или технологических (алгоритмических) процедур обработки данных; связаны с нечеткой, неоднозначной формулировкой цели и отсутствием устойчивой системы понятий и моделей. Такие задачи, не допускающие полной формализации, решаются с применением эвристик. Иными словами, для решения задачи смысловой обработки текстов необходимо участие человека (экспертная оценка).

Система Visual HCA представляет собой инструмент, который помогает эксперту в выработке понятий и концепций при решении таких слабоформализованных задач. Система позволяет обрабатывать матрицы, содержащие сотни объектов и атрибутов. Последние могут быть количественными и качественными. Особенностью системы является графический диалог с экспертом, обеспечивающий наглядность работы.

Приведенные в главе примеры демонстрируют возможности Visual HCA как средства решения слабоформализованных задач. В Приложении в описаны основные принципы, заложенные в систему, что позволяет экспертам, не знакомым со специальными разделами математической статистики, ознакомиться с работой системы, не вникая в частные детали.

В главе показано, что программа визуального эвристического анализа позволяет эксперту в визуальном диалоговом режиме определить группы слов, как ряд предметно-ориентированных словарей. В итоге каждому тексту соответствует один или более предметно-ориентированный словарь, что сохраняется в базе данных в виде числового кода - тематического индекса. Набор предметно-ориентированных словарей составляет естественно-тематический классификатор базы данных.

В третьей главе "Описание работы алгоритмов классификации текстов" говорится о том, как система смыслового анализа текстов работает по запросу читателя и как производится оценка близости текстов (релевантность).

Приводятся подробные описания:

• алгоритма отбора слов в естественно-тематический словарь;

• алгоритма создания естественно-тематического классификатора;

• алгоритма сравнения текстов и расчета близости текстов заданному

тексту-образцу.

На основе эмпирического закона Ципфа в главе дано научное обоснование алгоритма отбора слов в естественно-тематический словарь, определяющий основной тематический контекст базы данных, и на практических примерах демонстрируется достоверность его работы.

Далее в главе подробно описывается алгоритм создания естественно-тематического классификатора полнотекстовой базы данных, который основан на разбиении основного естественно-тематического словаря на ряд предметно-ориентированных словарей. На конкретных примерах продемонстрирована методика работы и показано, как получить наиболее достоверную тематическую классификацию массива текстов.

В следующем разделе главы приводится алгоритм сравнения текстов и числовой оценки их близости, заключающийся в подборе такой тематической группы в классификаторе базы данных, предметно-ориентированный словарь которой наиболее широко представлен в данном тексте.

В главе показано, что среднее значение числа слов из предметно-ориентированного словаря, присутствующих в текстах из данной тематической группы, колеблется в широких пределах. Набор таких слов данного текста с номером i из предметно-ориентированного словаря с номером j как ПОСу. Конкретное значение ПОСу сильно зависит от объема предметно-ориентированного словаря. Фактически ПОСу - это словарь, описывающий данный текст i в контексте тематической группы с индексом j. Такие словари принято называть поисковым образом текста.

Число слов в ПОСу зависит от суммарного числа слов в тексте, и если для каждого текста ввести коэффициент отклонения от максимального числа слов Wi,

Wi = Ni/Nmax

где: Ni - число слов в тексте с номером i;

Nmax - максимальное число слов.

то абсолютный коэффициент отношения данного текста i к тематической группе с индексом j с учетом размера текста будет равен Kij.

Kij = roaj*wi

При естественно-тематической классификации текста c номером i для каждого тематического индекса j рассчитываются значения: R0ij, которое в работе предлагается называть релевантностью текста с номером i тематической группе с индексом j, и значение Rij -релевантность c учетом размера текста.

Rij = Kij / NNj R0ij = ПОСу / NNj

где: ПОСу - число слов из предметно-ориентированного словаря с

индексом j, присутствующих в тексте i;

NNj - общее число слов в предметно-ориентированном словаре с

номером j.

При поиске близких текстов пользователь системы (читатель) получает отсортированный по значению релевантности список текстов. В диссертационной работе показано, что учет размера текста делает релевантность более устойчивой величиной при переходе от текста к тексту внутри тематической группы. На практических примерах показано, как изменяются значения релевантности в зависимости от тематической принадлежности текста.

В четвертой главе "Система смысловой обработки текстов в современной библиотеке как перспективное направление развития ИРБИС" рассматриваются ближайшие перспективы развития системы автоматизации библиотек ИРБИС, связанные с включением в нее системы смыслового анализа текстов для создания полнотекстовых хранилищ данных в современной библиотеке.

До завершения настоящего диссертационного исследования система автоматизации библиотек ИРБИС (ИРБИС32) использовала структуру хранения данных пакета прикладных программ CDS/ISIS, которая

специально ориентирована на хранение и поиск больших объемов текстовой информации. Особенности ИРБИС32 в сравнении с реляционными СУБД это - переменная длина полей, малая связность записей и текстовый формат данных. Наряду с очевидными достоинствами, данная структура имеет недостатки, связанные с существенными количественными ограничениями, такими как -физические размеры файлов баз данных и, в частности, словарей (что не позволяет создавать достаточно большие полнотекстовые базы данных), максимальная длина записи, максимальная длина поискового термина.

В связи с этим в рамках развития системы ИРБИС и реализации представляемой системы смыслового анализа текстов как расширения ИРБИС был разработан новый формат хранения данных и оригинальная полнофункциональная библиотека доступа к базам данных - ИРБИС64. Фактически это новая СУБД, ориентированная на работу в современных операционных системах, причем формат хранения обеспечивает платформенную независимость физических файлов базы данных, что на сегодняшний день является необходимым техническим требованием. На основе ИРБИС64 разработана клиент-серверная версия системы ИРБИС.

В главе показано, что ИРБИС64 можно использовать в библиотеках для создания полнотекстовых баз данных, включающих массивы текстов электронного фонда. Такие базы данных можно использовать для поиска по словам из текстов электронного фонда, осуществлять их тематическую классификацию и смысловой анализ.

Применение смыслового анализа текстов для создания полнотекстовых баз данных в современной библиотеке рассматривается разработчиками ИРБИС в качестве одного из основных положений концепции развития системы.

Заключение. Электронные фонды современной библиотеки с нарастающими темпами накапливают неструктурированные текстовые ресурсы. Причем объем накопленной текстовой информации может быть таким значительным, что задача подготовки их полного библиографического описания становится крайне затруднительной. Очевидна необходимость применения специальных технических решений для предоставления пользователям библиотеки доступа к многообразию электронных текстовых массивов. В настоящее время в России и за рубежом активно развиваются автоматизированные системы смыслового анализа текстов. В диссертационном исследовании дан общий обзор существующих программных продуктов, на основе которого сделан вывод о необходимости разработки системы смыслового анализа текстов, адаптированной к применению в системах автоматизации библиотек.

В диссертационной работе предлагается методика создания полнотекстовых баз данных на основе текстовой информации, накопленной в электронном виде, при этом любой массив электронных текстов рассматривается как электронный фонд.

В диссертационном исследовании показано, что задача смыслового

анализа текстов включает следующие основные этапы:

1. создание полнотекстовой базы данных;

2. классификация текстов по тематической принадлежности;

3. числовая оценка меры сходства текстов.

Для реализации первого этапа - создание полнотекстовой базы данных - была использована система автоматизации библиотек ИРБИС. В настоящее время система ИРБИС, в разработке которой принимал участие и автор настоящей работы, применяется более чем в 600-ах библиотеках России, СНГ и других стран. С целью включения в систему ИРБИС алгоритмов смысловой обработки текстов была разработана новая структура хранения данных и полнофункциональная библиотека доступа к базам данных ИРБИС64.

В рамках реализации второго этапа - классификация текстов - были проведены теоретические исследования и сделаны выводы о возможности применения методов математической статистики для решения этой задачи. В диссертационном исследовании показано, что задача классификации текстов относится к слабоформализованным и должна решаться с помощью эвристических (предусматривающих участие эксперта) алгоритмов. Специально для решения таких задач была разработана и реализована система визуального эвристического анализа числовых данных, которая доказала свою эффективность при решении практических вопросов в различных научных областях.

Важным аспектом системы автоматизированного анализа текстов является тот факт, что все специальные подробности применения математической статистики скрыты от пользователя и для работы с системой требуется только знание предметной области полнотекстовой базы данных. В диссертационной работе даны практические рекомендации по применению системы визуального эвристического анализа специалистами библиотеки при классификации текстов. На конкретных примерах продемонстрированы возможности системы. Для неспециалистов в области математической статистики в Приложении дается подробное описание принципов работы системы.

Достоверность работы автоматизированной системы смыслового анализа текстов обеспечивается алгоритмами числовой оценки меры близости текстов, составляющими последний, третий этап решения общей задачи. В диссертационном исследовании показано, что основным инструментом смыслового сравнения текстов являются предметно-ориентированные словари, содержащие слова с повышенной частотой встречаемости. Набор таких словарей составляет естественно-тематический классификатор полнотекстовой базы данных. Расчеты и практические оценки меры близости текстов на конкретных примерах подтверждают достоверность работы алгоритмов смыслового анализа текстов. Поставлен вопрос о соотношении рубрикаторов, применяемых в библиотеке при создании библиографических описаний, и естественно-тематического классификатора системы.

В диссертационном исследовании даны практические рекомендации по применению автоматизированной системы смыслового анализа текстов в библиотеках. Освещены вопросы дополнительного обучения специалистов библиотеки для работы с предлагаемой системой. По результатам работы сделаны следующие выводы:

• смысловой полнотекстовый анализ является необходимой частью современной системы автоматизации библиотек;

• задачи смыслового анализа и тематической классификация текстов относятся к слабоформализованным и должны решаться с помощью эвристических алгоритмов;

• разработанные алгоритмы позволяют автоматизировать создание полнотекстовых баз данных в условиях библиотеки (без привлечения сторонних специалистов) и предоставить читателям сервис в виде полнотекстового поиска и смыслового поиска текстов, близких к заданному тексту-образцу.

По теме диссертации опубликованы следующие работы автора:

1. Интерактивные методы решения слабо-формализованных задач в гуманитарных и естественно научных приложениях: (Визуальный эвристический кластерный анализ) // Материалы симпозиума по компьютерным приложениям С1С'98, Мексиканский Национальный Политехнический институт. - Мехико,1998. - С.346-358. - Англ. яз. - В соавт. с П.П. Макагоновым.

2. Поиск схожих текстов: подходы к решению задачи // Труды Международной академии информатизации ООН (Молдавия). -Кишинев,2000.-С.215-223. - Англ. яз. - В соавт. с П.П. Макагоновым, М.А.Александровым.

3. Демонстрационная версия электронной базы данных "Устойчивое развитие городов".- М.: Знание,1999. - 87 с. - В соавт. с П.П. Макагоновым, А.И.Бродовским, Л.Н.Очаговой.

4. Поиск схожих текстов в полнотекстовых базах данных по заданному образцу // Материалы симпозиума по компьютерным приложениям С1С'98. - Мехико, 1999. - С. 17-29. - Англ. яз. - В соавт. с П.П. Макагоновым, М.А.Александровым.

5. Классификация аннотаций докладов конференции // Материалы симпозиума по компьютерным приложениям С1С'99.- Мехико,1999.-С.87.-Англ. яз. - В соавт. с П.П. Макагоновым.

6. Методика кластеризации коротких текстов на базе набора ключевых слов // Избранные работы исследователей.- Мехико,1999. - С.32-37. - Англ. яз. - В соавт. с П.П. Макагоновым.

7. Методика исследования предметно-ориентированных словарей при структуризации потока электронных документов // Прикладной анализ данных классификация и численные методы.- Б.г.:Шпрингер,2000.- C. 454456. -Англ. яз. - В соавт. с П.П. Макагоновым, М.А.Александровым.

8. Программное обеспечение для создания предметно-ориентированных словарей и кластеризации документов в полнотекстовых базах данных // Компьютерная лингвистика и интеллектуальная обработка текстов.-Б.г.:Шпрингер,2001.- C. 454-456. - Англ. яз. - В соавт. с П.П. Макагоновым, М.А.Александровым.

9. Кластеризация документов в факторном метрическом пространстве // Материалы 7-й конф. междунар. федерации сообщества по классификации "Прикладной анализ данных, классификация и численные методы", Бельгия, 2003. - T.1. - C.222-225. - Англ. яз. - В соавт. с П.П. Макагоновым, М.А.Александровым.

10. Анализ критериев устойчивого развития городов на основе практики их применения в условиях России/ П.П.Макагонов, K.O. Сбойчаков, Е. Траилина// Науч. тр. междунар. союза экономистов и вольного экономического общества России.- M.,2001. - T.1. - C.22-27. - В соавт. с П.П. Макагоновым, Е. Траилиной.

11. Описание автоматизированной системы классификации текстов// Информационные технологии в библиотеках и информационное сообщество.-М.: ГПНТБ России, 2001. - С.47-51.

12. О новой файловой структуре CDS/ISIS // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: Тр конф.- М.,2001 .-T.1 .-C.92-97. - В соавт. с АИ Бродовским, Н.А.Мазовым, О.Л. Жижимовым.

13. Перспективы развития ИРБИС в плане применения системы смыслового анализа текстов для создания полнотекстовых хранилищ знаний современной библиотеке// Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: Тр конф.- М., 2003. - T.1. - C.122-125.

14. Интерактивные прикладные методы анализа на примере истории социальных проблем Мексики// Материалы конф. по анализу данных и системному анализу.- Почука, 2003. - T.1. - C.12-15. - Исп. яз. - В соавт. с П. П. Макагоновым.

Подписано в печать 24.12.2003 Объем 1,2 п.л. Тираж 100 экз. Заказ №

Репрографический центр ГПНТБ России 107996, Москва, Л-31, ГСП-6, Кузнецкий мост, 12

Оглавление автор диссертации — кандидата технических наук Сбойчаков, Константин Олегович

Введение.

Глава 1. Автоматизированная система смысловой обработки текстов.

1.1. Обзор существующих программных продуктов анализа текстов.

1.2. Смысловая обработка текстов в полнотекстовых базах данных.

1.3. Описание работы системы автоматизированного смыслового анализа текстов.

Глава 2. Система визуального эвристического кластерного анализа.

2.1. Экспертные системы и система визуального эвристического анализа — сходства и отличия.

2.2. Возможности системы Visual НСА

Visual Heuristic Cluster Analysis).

2.3. Методы, ориентированные на данные.

2.4. Примеры применения.

Глава 3. Описание работы алгоритмов смысловой обработки текстов.

3.1. Алгоритм отбора слов в естественно тематический словарь.

3.2. Алгоритм разбиения основного естественно-тематического словаря на ряд предметно-ориентированных словарей.

3.3. Алгоритм создания естественно-тематического классификатора.

3.4. Сравнение текстов в алгоритме смыслового анализа.

3.5. Алгоритм расчета близости текстов заданному тексту-образцу.

Глава 4. Перспективы развития ИРБИС в плане применения системы смыслового анализа текстов для создания полнотекстовых баз данных в современной библиотеке.

4.1. Автоматизированная библиотечная система ИРБИС в ГПНТБ России.

4.2. Разница между системой смыслового анализа для ИРБИС и ИРБИС64.

4.3. Подготовка специалистов библиотеки для работы с системой.

4.4. Последовательность операций при создании и ведении базы данных ИРБИС при использовании системы смыслового анализа текстов.

4.5. Система смыслового анализа текстов в ИНТЕРНЕТ.

Введение 2003 год, диссертация по документальной информации, Сбойчаков, Константин Олегович

Актуальность темы. В последние годы количество текстовой информации в электронном виде возросло настолько, что возникает угроза ее обесценивания в связи с трудностями поиска требуемых сведений среди множества доступных текстов. В настоящее время все большее распространение получают полнотекстовые базы данных. Крупные образовательные центры организуют в Интернете для студентов и сотрудников базы научных статей, авторефератов, многие организации предосгавляют доступ к ресурсам электронных библиотек, оргкомитеты конференций публикуют тысячи полных текстов докладов и т.п.

Данная работа исследует проблему и предлагает научно-обоснованную методику создания полнотекстовых баз данных на основе текстовой информации, накопленной в электронном виде. В данной диссертации предполагается рассматривать полнотекстовые базы данных, создаваемые библиотекой, как часть электронного фонда библиотеки, а электронный фонд, по существу, есть часть общего фонда библиотеки со всеми приданными ему характеристиками. В общедоступных библиотеках такой массив текстов документов обычно возникает как результат сканирования текстов по частным заказам пользователей. С возрастанием объемов накопленной информации возникает задача смыслового поиска и экспертного статистического анализа данных с целью предоставить пользователю возможность правильно ориентироваться в среде электронных фондов большого объема, а эксперту - возможность выделять подклассы текстов по заданной тематике (в дальнейшем — естественно-тематические группы текстов).

В настоящее время в мире существуют и активно развиваются системы смыслового поиска в полнотекстовых базах данных, которые поддерживаются ведущими фирмами — производителями серверов баз данных, например, Oracle, Microsoft, IBM и др. Такие системы строятся на основе многомерных хранилищ, из которых данные извлекаются и обрабатываются с помощью алгоритмов для заранее определенных субъект-объектных отношений между ними. Крупные поисковые серверы в Интернете (например, Yahoo, Yandex) поддерживают алгоритмы поиска текстов "схожих" с данным и расчета релевантности найденных документов исходному запросу. Специализированные системы полнотекстового анализа (например, в России это "Следопыт", "ТекстАналист") позволяют проводить автоматическую классификацию и реферирование текстов.

Разработанность проблемы. Исследования в области автоматической обработки текстов в Европе и США привлекают внимание крупнейших частных фирм и государственных организаций самого высокого уровня. Европейский Союз уже несколько лет координирует различные программы в области автоматической обработки текстов (например, проект 1ST, 19982001 гг.). В США с 1991 по 1998 гг. существовал проект TIPSTER, организованный Департаментом обороны совместно с Национальным институтом стандартов и технологий и Центром военно-воздушных и военно-морских вооружений. В работе консультативного совета этого проекта участвовали также ФБР, Национальный научный фонд и некоторые другие организации. Основной целью проекта было сравнение и оценка результатов работы различных поисковых систем и систем реферирования. По результатам проекта был опубликован подробный обзор и даны рекомендации по использованию этих систем. В США среди систем подобного рода наиболее известной является электронная архивная система "Excalibur RetrievalWare" производства компании Excalibur Technologies. Программные продукты этой компании используются Госдепартаментом, Библиотекой Конгресса, ЦРУ, компаниями Ford Motors, Lockheed, Reynold Electrical & Engineering, Maine Yankee Atomic Power.

Создание систем смыслового анализа текстов до настоящего времени происходит с минимальным участием лингвистов. Это обусловлено использованием для решения этой задачи в основном статистических методов. Области, в которых наиболее сильны позиции профессиональных лингвистов, это в первую очередь лексико-грамматический и синтаксический анализ предложения, нахождение имен собственных в тексте и автоматическое реферирование. Научный и практический опыт лингвистов получил широкое применение в системах автоматического перевода и контекстного анализа, при создании тезаурусов и словарей, и т.д. Наиболее известные лингвистические программные продукты на рынке России:

• "Retrans Vista" — система автоматизированного перевода текстов. Система базируется на технологии фразеологического перевода компании "Виста Текнолоджиз", образованной специалистами из Всероссийского института научной и технической информации Российской Академии наук (ВИНИТИ РАН), стоящими у истоков создания отечественной компьютерной лингвистики. Группа этих специалистов под руководством профессора Г.Г. Белоногова начала разрабатывать основы технологии машинного перевода более 20 лет назад [11];

• "MediaLingua", "ABBYY Lingvo" - электронные словари;

• "PROMT" - системы машинного перевода;

• развитые средства контроля орфографии "Microsoft Word";

• в научно-производственном центре "Интелек Плюс" ведется разработка информационно-поисковых систем (ИПС), ориентированных на естественно-языковое общение с пользователем [92].

Современные системы смыслового анализа текстов, особенностью которых являются: предпочтение скорости обработки текстов точности семантического и морфологического анализа, статистический частотный анализ словоупотреблений, автоматическая классификация текстов, расчет релевантности текстов поисковому запросу — можно выделить в отдельный класс, к которому относится и система, разработанная автором данной диссертации.

В России исследования в области информационных систем и информационного поиска были сосредоточены главным образом в сети органов научно-технической информации, которая практически рухнула в результате событий 1990-х гг. [5,6,8] В то же время произошла смена поколений информационных систем: сначала переход с больших ЭВМ на персональные, а затем распространение Интернета. В результате в стране практически исчезли созданные в 1980-х гг. и ранее информационные системы, основанные на известных моделях лингвистического обеспечения. В настоящее время работы по смысловому анализу текстов главным образом ведутся:

• в Институте программных систем РАН. Разработана система "Кластер" для формирования концептуального представления предметной области на основе анализа проблемно-ориентированных естественно-языковых текстов [106];

• в корпорации "Галактика". Разработана автоматизированная система поиска и аналитической обработки информации "Са1акика-200М". Это дорогая коммерческая система, имеющая клиентов в рекламном бизнесе, органах управления и средствах массовой информации [74];

• в компании "Гарант-Парк-Интернет". Разработаны программные продукты для анализа и классификации текстов, автоматического реферирования, морфологического, синтаксического и семантического анализа текста, для навигации по большим массивам текстов [72];

• в Научно-производственном инновационном центре "Микросистемы". Разработана система "ТекстАналист". Система осуществляет построение семантической сети понятий, выделенных в обрабатываемом тексте, смысловой поиск фрагментов текста с учетом скрытых в тексте смысловых связей со словами запроса, автоматически реферирует текст [170];

• в компании "MediaLingua". Разработана интеллектуальная система "СЛЕДОПЫТ", служащая для быстрого поиска текстовых фрагментов документов в больших объемах информации. В качестве запроса могут использоваться фразы на естественном языке [166];

• в Московском специализированном Центре новых информационных технологий на базе Московской медицинской академии им. И.М. Сеченова. Разработана система "КЛЮЧИ ОТ ТЕКСТА" - для смыслового поиска и индексирования текстовой информации в электронных библиотеках [78];

• в компании "Yandex". Предлагается набор средств полнотекстовой индексации и поиска в текстовых данных с учетом морфологии русского и английского языков. Средства предназначены для работы с большими объемами русских или английских текстов всех типов в виде файлов различных форматов, полей баз данных и страничек Интернета.

Подробные сведения об этих и других распространяемых программных продуктах содержатся в каталоге, составленном C.B. Логичевым [http://davidsonyuliya.boom.ru/catalog.htm]. Каталог включает описание программ, связанных с анализом текстов и вычислительной лингвистикой, а также соответствующих ресурсов, доступных в Интернете.

В настоящее время в стране сложилась ситуация, когда системы автоматизации библиотек, как правило, не поддерживают технологии автоматизированного смыслового анализа текстов, а современные системы анализа текстов не адаптированы к работе с системами автоматизации библиотек, при этом стоимости тех и других как коммерческих продуктов сопоставимы. Это делает целесообразным расширение возможностей систем автоматизации библиотек за счет включения в лих средств смыслового анализа текстов.

Исходя из этого, в данном диссертационном исследовании была сформулирована цель работы: исследование, разработка и научно-практическое обоснование алгоритмов и методики автоматизированной смысловой обработки текстов и внедрение их в технологию обработки электронных фондов библиотек.

В соответствии с этой целью решались следующие задачи:

• разработка и обоснование методики создания полнотекстовых баз данных;

• разработка и обоснование общей методики смыслового анализа текстов;

• разработка и программная реализация автоматизированной системы эвристического анализа числовых данных;

• разработка и программная реализация алгоритмов классификации текстов;

• адаптация автоматизированной системы смыслового анализа текстов для работы с электронными фондами библиотеки в среде системы автоматизации библиотек ИРБИС.

Данная работа является синтезом нескольких независимых исследований, которые проводились автором. Прежде всего автором, совместно с П.П. Макагоновым, была разработана система визуального эвристического анализа числовых данных, названная Visual НСА [114]. Данная система адресована эксперту, которому необходимо решить слабоформализованную задачу классификации на основе создания и структуризации числовой модели. Автором были исследованы потребности библиотек, и как разработчик систем автоматизации автор поставил цель прикладного применения Visual НСА для создания системы полнотекстового анализа электронных фондов библиотек. Совместно с

П.П. Макагоновым были развиты алгоритмы смыслового анализа текстов на основе идеи естественно-тематической классификации проблемно-ориентированных текстов [115,117,121]. Автор является одним из разработчиков системы автоматизации библиотек ИРБИС, которая создана в ГПНТБ России коллективом специалистов под руководством Я.JI. Шрайберга. В соавторстве с Л.И. Бродовским, H.A. Мазовым и O.JI. Жижимовым были разработаны формат хранения данных и полнофункциональная библиотека доступа к базам данных ИРБИС64, позволяющие создавать базы данных большого объема [125]. Завершающим этапом работы явилось создание системы смыслового анализа текстов и интеграция ее в систему автоматизации библиотек ИРБИС [126].

Научная новизна данной диссертационной работы состоит в том, что исследована проблема и разработан алгоритм классификации текстов и соответствующая методика смыслового анализа текстов. Впервые в качестве метода составления поискового образа текста был определен отбор слов на основе частотного словаря общеупотребительной лексики.

Задача автоматического определения тематической принадлежности текстов решена на основе расчета и эвристического анализа меры близости текстов к словарю предметной области.

Предложена концепция применения ряда независимых эвристических алгоритмов для структуризации числовых данных, что увеличивает достоверность результатов работы системы смыслового анализа.

На защиту выносятся следующие основные положения:

1. Задачи смыслового анализа и тематической классификация текстов относятся к слабоформализованным и должны решаться с помощью эвристических (с участием эксперта) алгоритмов.

2. Смысловой полнотекстовый анализ является необходимой частью современной системы автоматизации библиотек.

3. Разработанные алгоритмы позволяют в условиях библиотеки автоматизировать создание полнотекстовых баз данных (без привлечения сторонних специалистов) и предоставить читателям библиотеки сервис в виде полнотекстового поиска и смыслового поиска текстов, близких к заданному тексту-образцу.

Теоретическая значимость исследовании состоит в обобщении имеющегося опыта применения математической статистики для смысловой обработки текстов; в развитии и обогащении научного представления о значимости анализа текстов для информационно-поисковых систем, применяемых в библиотеках.

Практическая значимость состоит в том что, созданы и опубликованы в Интернете на сайте ГПНТБ России полнотекстовые базы данных докладов конференции "Крым 2002-2003" и статей сборника НТБ ГПНТБ России. Общее число текстов в базах 1300. Время, затраченное на создание баз данных и тематическую классификацию текстов по методике, разработанной в диссертационном исследовании, составило один рабочий день, тогда как на создание библиографических описаний этого же объема документов пришлось бы потратить не менее 60 дней.

В результате диссертационного исследования разработана полнофункциональная библиотека доступа к базам данных, которая используется в клиент-серверной версии системы автоматизации библиотек ИРБИС-ИРБИС64.

Разработана система визуального эвристического анализа числовых данных, которая неоднократно применялась на практике при решении экспертных задач в различных областях знаний. При этом на каждую из задач тратилось от 2 часов до 2 дней. Решение тех же задач традиционными методами требовал нескольких месяцев работы и не всегда позволял выявить те же закономерности в предметной области. В рамках расширения возможностей системы визуального эвристического анализа разработана программа "Визуальный трехмерный анализ временных измерений на плоскости (Visual НСА 3D)", которая используется в учебном процессе Российской академии государственной службы при Президенте Российской Федерации (акт о внедрении прилагается).

Апробация результатов исследований состояла в публикации материалов исследований в отечественных и зарубежных периодических изданиях, в выступлениях с докладами на отечественных и зарубежных конференциях и опубликовании текстов этих докладов.

Основные результаты диссертационной работы были представлены на следующих международных конференциях:

• "Крым 2000", "Крым 2001", "Крым 20002", "Крым 2003" "Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества" (г.Судак, Украина, Автономная республика Крым).

• "ЛИБКОМ 2001", "ЛИБКОМ 2002", "ЛИБКОМ 2003" "Информационные технологии, компьютерные системы и издательская продукция для библиотек" (Ершово, Московская область).

• "Иссык-Куль 2003" "Библиотеки и демократизация общества: библиотечно-информационное обслуживание в век информатизации" (г.Чолпан-Ата, Кыргызстан).

Заключение диссертация на тему "Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки"

ЗАКЛЮЧЕНИЕ

Электронные фонды современной библиотеки с нарастающими темпами накапливают неструктурированные текстовые ресурсы. Причем объем накопленной текстовой информации может быть таким значительным, что задача подготовки их полного библиографического описания становится крайне затруднительной. Очевидна необходимость применения специальных технических решений для предоставления пользователям библиотеки доступа к многообразию электронных текстовых массивов. В настоящее время в России и за рубежом активно развиваются автоматизированные системы смыслового анализа текстов. В диссертационном исследовании дан общий обзор существующих программных продуктов, на основе которого сделан вывод о необходимости разработки системы смыслового анализа текстов, адаптированной к применению в системах автоматизации библиотек.

В диссертационной работе предлагается методика создания полнотекстовых баз данных на основе текстовой информации, накопленной в электронном виде, при этом любой массив электронных текстов рассматривается как электронный фонд.

В диссертационном исследовании показано, что задача смыслового анализа текстов включает следующие основные этапы:

1. создание полнотекстовой базы данных;

2. классификация текстов по тематической принадлежности;

3. числовая оценка меры сходства текстов.

Для реализации первого этапа — создание полнотекстовой базы данных - была использована система автоматизации библиотек ИРБИС. В настоящее время система ИРБИС, в разработке которой принимал участие и автор настоящей работы, применяется более чем в 600-ах библиотеках России, СНГ и других стран. С целыо включения в систему ИРБИС алгоритмов смысловой обработки текстов была разработана новая структура хранения данных и полнофункциональная библиотека доступа к базам данных ИРБИС64.

В рамках реализации второго этапа - классификация текстов - были проведены теоретические исследования и сделаны выводы о возможности применения методов математической статистики для решения этой задачи. В диссертационном исследовании показано, что задача классификации текстов относится к слабоформализованным и должна решаться с помощью эвристических (предусматривающих участие эксперта) алгоритмов. Специально для решения таких задач была разработана и реализована система визуального эвристического анализа числовых данных, которая доказала свою эффективность при решении практических вопросов в различных научных областях.

Важным аспектом системы автоматизированного анализа текстов является тот факт, что все специальные подробности применения математической статистики скрыты от пользователя и для работы с системой требуется только знание предметной области полнотекстовой базы данных. В диссертационной работе даны практические рекомендации по применению системы визуального эвристического анализа специалистами библиотеки при классификации текстов. Па конкретных примерах продемонстрированы возможности системы. Для неспециалистов в области математической статистики в Приложении дается подробное описание принципов работы системы.

Достоверность работы автоматизированной системы смыслового анализа текстов обеспечивается алгоритмами числовой оценки меры близости текстов, составляющими последний, третий этап решения общей задачи. В диссертационном исследовании показано, что основным инструментом смыслового сравнения текстов являются предметно-ориентированные словари, содержащие слова с повышенной частотой встречаемости. Набор таких словарей составляет естественно-тематический классификатор полнотекстовой базы данных. Расчеты и практические оценки меры близости текстов на конкретных примерах подтверждают достоверность работы алгоритмов смыслового анализа текстов. Поставлен вопрос о соотношении рубрикаторов, применяемых в библиотеке при создании библиографических описаний, и естественно-тематического классификатора системы.

В диссертационном исследовании даны практические рекомендации по применению автоматизированной системы смыслового анализа текстов в библиотеках. Освещены вопросы дополнительного обучения специалистов библиотеки для работы с предлагаемой системой.

По результатам работы сделаны следующие выводы:

• смысловой полнотекстовый анализ является необходимой частью современной системы автоматизации библиотек;

• задачи смыслового анализа и тематической классификация текстов относятся к слабоформализованным и должны решаться с помощью эвристических алгоритмов;

• разработанные алгоритмы позволяют автоматизировать создание полнотекстовых баз данных в условиях библиотеки (без привлечения сторонних специалистов) и предоставить читателям сервис в виде полнотекстового поиска и смыслового поиска текстов, близких к заданному тексту-образцу.

Библиография Сбойчаков, Константин Олегович, диссертация по теме Информационные системы и процессы, правовые аспекты информатики

1. Абрамович Н.С. Прикладная статистика. Анализ Данных. Многомерная классификация/Н.С. Абрамович.- Минск, 1994. 39 с.

2. Андреев A.M. Лингвистический процессор для информационно-поисковой системы/А.М.Андреев, Д.В.Березкин, А.В.Брик //Компьютерная хроника. 1998.- № 11 - С. 79 - 100.

3. Андреев A.M. Экспертные юридические системы: миф или реальность/ А.М.Андреев, Д.В.Березкин, Ю.А.Кантонистов // Мир ПК.- 1998.- №9 — С. 56-64.

4. Антопольский А. Б. Электронные библиотеки/А.Б.Антопольский, К.В.Вигурский//Информационные ресурсы России, 1999. -Электронный ресурс. Режим доступа: http://\vww.elbib.Ri/index.phtml?page=elbib/rus/iournal.

5. Антопольский А.Б. Разработка и внедрение методов совместимости лингвистического обеспечения при взаимодействии АИС: Дис. на соиск. учен. степ, д.т.н. -М., 1990.

6. Апраушева H.H. Новый подход к обнаружению кластеров/ Н.Н.Апраушева. -М., 1993. -65 е.: ил.

7. Арме В. Электронные библиотеки/В. Арме.- М., ПИК ВИНИТИ, 2001.89 с.

8. АхоА. Теория синтаксического анализа, перевода и компиляции/А.Ахо, Дж.Ульман. Т.1. Синтаксический анализ. М.: Мир, 1978. — 612 с.

9. Ю.Байдык Т.Н. Нейронные сети и задачи искусственного интеллекта/ Т.Н. Байдык. Киев: Наукова думка, 2001. - 263 е.: ил.

10. П.Белоногов Г.Г. Языковые средства автоматизированных информационных систем/Г.Г.Белоногов, Б.А.Кузнецов. М.: Наука, 1983.- 187 с.

11. Бешелев С. Д. Математико-статистические методы экспертных оценок/С.Д. Бешелев, Ф.Г. Гурвич.-М., 1980.- 263 с.

12. Богородская H.A. Статистика. Методы анализа статистической информации: Конспект лекций/Н.А. Богородская. СПб., 1997. -80 е.: ил.

13. Боровиков В.П. STATISTICA. Статистический анализ и обработка данных в среде Windows/ В.П.Боровиков, И.П.Боровиков. -М.: Информ.-издат.Дом "Филинъ", 1997. -592,УШ е.: ил.

14. Боровиков В.П. Популярное введение в программу STATISTICA/ В.П.Боровиков. -М.: Компьютер-Пресс, 1998. -266 е.: ил.

15. П.Боровиков В.П. Statistica. Статистический анализ и обработка данных в среде Windows/ В.П.Боровиков, И.П.Боровиков. -2 изд., стер. -М.: Информ.-издат.Дом "Филинь", 1998. -592,8 е.: ил.

16. Бродовский А.И. Система автоматизации библиотек ИРБИС 2000: что нового?/А.И. Бродовский//Науч. и техн. б-ки. 2001. - №2. -С. 25-31.

17. Бродская И.М. Модель гистоиерархического объектно-ориентированного справочника для документной информационно-поисковой системы/ И.М.Бродская, Э.З.Любимский, Л.В.Ухов. -М., 1994. -19 с.: ил.

18. Брусакова И.А. Проектирование баз знаний и экспертные системы: Учеб.пособие/ И.А.Брусакова, Д.Д.Недосекин, С.В.Прокопчина. -СПб., 1993.-59 е.: ил.

19. Буч Г. Объектно-ориентированное проектирование с примерами применения/Г. Буч.-Киев: Диалектика, 1993.-312 с.

20. Волченская Т.В. Теория графов: Учеб. пособие/ Т.В. Волченская. -Пенза, 1998.-67 е.: ил.

21. Воройский Ф.С. Разработка средств организационно-технологического обеспечения АБИС/ Ф.С. Воройский//Науч. и техн. б-ки. 2001. - №9.-С. 71-86.

22. Воройский Ф.С. Региональные корпоративные библиотечные системы России: опыт последних трёх лет глазами участников движения/ Ф.С.Воройский, Я.Л.Шрайберг//Науч. и техн. б-ки.- 2003.-№ 3.- С.13-33.

23. Воройский Ф.С Корпоративные автоматизированные библиотечно-информационные системы: состояние, принципы построения и перспективы развития. Аналитический обзор/ Ф.С.Воройский, Я.Л.Шрайберг .-М.: ГПНТБ России, 2003.— 129 с.

24. Воройский Ф.С. Основы проектирования автоматизированных библиотечно-информационных систем/ Ф.С. Воройский. — М.: ФИЗМАТЛИТ, 2002. — 383 с.

25. Воройский Ф.С. Развитие современных информационных технологий в библиотеках России и других стран СНГ в зеркале международныхконференций "Крым-1994" — "Крым-2000"// Ф.С. Воройский // Науч. и техн. б-ки.-2001.-№ 2.- С. 5-14.

26. Генетические алгоритмы, искусственные нейронные сети и проблемы виртуальной реальности/ Г.К.Вороновский, К.В.Махотило, С.Н.Петрашев, С.А.Сергеев. -Харьков: Основа, 1997. -111 с.

27. Гаврилов Г.П. Методы линейной алгебры в теории графов: Учеб. пособие для студентов/ Г.П.Гаврилов, Д.С.Романов. -М., 1996. -71 с.

28. Гапиев Ш.И. Теория формальных языков: Учеб.пособие/ Ш.И.Гапиев, Л.Ю.Емалетдинова. -Казань, 1994. -100 е.: ил.

29. Гендина Н.И. Лингвистические средства автоматизации документального поиска/Н.И. Геидина. СПб., 1992.-188 е.: ил.

30. Гинкул Г.П. Игровой подход к формированию баз знаний в экспертных системах: Автореф. дис. на соиск. учен. степ, канд.физ.-мат.наук:05.13.11/Г.П. Гинкул. -М., 1991. -15 е.,

31. Гитис Л.Х. Кластерный анализ: основные идеи и методы: Препринт/ Л.Х.Гитис. -М., 2000. -61 е.: ил.

32. Гольдштейн А.Л. Исследование операции: многокритериальные задачи: Конспект лекций/ А.Л. Гольдштейн. -Пермь, 1995. -72 е.: ил.

33. ГОСТ 7.73-96. Поиск и распространение информации. Термины и определения.- Взамен ГОСТ 7.27-80; Введ.с 01.01.98. -Минск: Межгос.совет по стандартизации,метрологии и сертификации, 1997. -15 с.

34. ГОСТ 7.74-96. Информационно-поисковые языки. Термины и определения.- Введ.с 01.07.97. -Минск: Межгос.совет по стандартизации,метрологии и сертификации, 1997. -34 с.

35. Гончаров М.В. Введение в Интернет: Учеб.пособие в 9 ч. Ч. 1. Общие сведения / Гончаров М.В.,Шрайберг Я.Л.;Под общ.ред.Я.Л.Шрайберга. — М.,2000. -60 е.: ил.

36. Гончаров М.В. Введение в Интернет: Учеб.пособие в 9 ч. Ч. 2. Созданиесобственных WWW-страннц / Гончаров М.В.,Шрайберг ЯЛ.;Под общ.ред.Я.Л.Шрайберга. -М.,2000. -60 е.: ил.

37. Гончаров М.В. Введение в Интернет: Учеб.пособие в 9 ч. Ч. 3. Интернет для науки, культуры и образования / Гончаров М.В.,Шрайберг Я.Л.;Под общ.ред.Я.Л.Шрайберга. -М.,2000. -82 е.: ил.

38. Горбань А.Н. Нейронные сети на персональном компьютере/

39. A.Н.Горбань, Д.А.Россиев. Новосибирск: Наука: Сиб. изд. фирма РАН, 1996. -275 с.

40. Грачев Н.С. Анализ данных по окружающей среде при помощи нейронных сетей с обобщенной регрессией и геостатистики/ Н.С.Грачев,

41. B.В.Демьянов, М.Ф.Каневский. М., 1999. -39 е.: ил.

42. Дулин С.К. Программная поддержка определения структуры многомерной базы данных для OLAP/ С.К.Дулин, Р.В.Самохвалов. -М.: ВЦ РАН, 1997. -21 е.: ил.

43. Евстигнеев В.А. Теория графов: алгоритмы обработки деревьев/ В.А.Евстигнеев, В.Н.Касьянов. Новосибирск: Наука, 1994. -361 е.: ил.

44. Евреинов Э.В. Информациология сред,структур и биокомпыотерных систем/Э.В. Евреинов. -М., 1996. -33 с.

45. Проектирование и эксплуатация региональных АСНТИ/ Б.С.Елепов, Л.К.Бобров, С.Р.Баженов, Н.Е.Каленов. Новосибирск: Наука. Сиб. отд-ние, 1991. -174 е.: ил.

46. Елтаренко Е.А. Оценка и выбор решений по многим критериям: Учеб. пособие/Е.А. Елтаренко. — М., 1995. -111 е.: ил.

47. Епанешников A.M. Программирование в среде DELPHI 2.0/

48. A.М.Епанешников, В.А.Епанешников. -М.: Диалог-МИФИ Ч. 4. Работа с базами данных. Организация справочной системы. -1998. -400 е.: ил.

49. Желтов В.П. Теория графов: Конспект лекций/ В.П.Желтов,

50. B.И.Музыкантов. -Чебоксары, 1998. -100 е.: ил.

51. Жижимов O.JI. Введение в Z39.50/ O.JI. Жижимов. Новосибирск: Изд-во НГОНБ, 2000.-196с.

52. Интеллектуальные системы автоматизированного проектирования БИС и СБИС /В.А.Мищенко, Л.М.Городецкий, Л.И.Гурский и др.; Под ред. В.А.Мищенко.-М.: Радио и связь, 1988.- 272 с.

53. Информационно-поисковый язык на основе ББК для электронного каталога: Метод, пособие/ Рос. Гос. б-ка. Отдел автоматизации библиотек. -М., 1996. -60 с.

54. Информационные системы в лингвистике: Сб. ст. -Омск, 2000. -89 е.: ил. -(Информатика и лингвистика/ Омский гос. педагог, ун-т; Вып.1).

55. Искусственный интеллект. В 3 кн. Кн.1. Системы общения и экспертные системы: Справочник/Под ред. Э.В.Попова. — М.: Наука, 1990.

56. Искусственный интеллект. В 3 кн. Кн.2. Модели и методы: Справочник/Под ред. Д.А.Поспелова. — М.: Наука, 1990.

57. Исмагилов P.C. Графы: Учеб. пособие по курсу "Дискрет, математика"/ Р.С.Исмагилов, А.В.Калинкин, В.В.Станцо. М.: Изд-во МГТУ, 1999. -41 е.: ил.

58. Использование методов математической статистики при анализе существенных признаков художественно-конструкторских решений,заявленных в качестве промышленных образцов/ Науч.-произв.об-ние "Поиск". -М„ 1992.-72 с.

59. Исследование операций и математическое программирование. Кишинев: Штиинца, 1992. -114 е.: ил.

60. Каленов Н.Е. Комплексная автоматизация информационно-библиотечного обеспечения ученых АН СССР в области естественных наук: Автореф. дис. на соиск. учен. степ. д-ра техн.наук:05.25.05/Н.Е.Каленов. -М., 1991. -28 е.: ил.

61. Касьянов В.Н. Теория графов и ее приложения: Сб.ст./В.Н.Касьянов, Науч.ред.В.А.Скоробогатов. -Новосибирск, 1994. -120 е.: ил.

62. Катулев А.Н. Исследование операций. Принципы принятия решений и обеспечение безопасности: Учеб. пособие для студентов вузов/

63. A.Н.Катулев, Н.А.Северцев. М.: ФИЗМАТЛИТ, 2000. -318 с.

64. Каштанов В.А. Исследование операций: Учеб. пособие/ В.А.Каштанов,

65. B.М.Хаметов. -М., 1990. -125 с.

66. Когнитивное моделирование : Тр. междунар. конф.,Пущино,17-19 сент.1999 г. -М.: МИСИС, 2000. -441 е.: ил.

67. Колдаков В.В. Реализация распределенной базы данных в концепции информационного хранилища/ В.В.Колдаков, В.В.Марусин, Е.М.Шаталов. Новосибирск, 1996. -26 с.

68. Компания "Гарант-Парк-Интернет" Электронный ресурс. — Режим доступа: www.rco.ru.

69. Компьютерный синтаксический анализ: описание моделей и направлений разработок/Г.Д.Карпова, Ю.К.Пирогова, Т.Ю.Кобзарева, Е.В.Микаэлян// Итоги науки и техники. Сер. "Вычислительные науки"/ ВИНИТИ; Т.6. М., 1991. - С. 91.

70. Корпорация "Галактика Galaktika-ZOOM" Электронный ресурс. — Режим доступа: www.ga1aktSka.ru.

71. Костров A.B. Системный анализ и принятие решений: Учеб. Пособие /

72. A.В.Костров. -Владимир, 1995. -66 е.: ил.

73. Костромина Н.В. Графы: теория, задачи, алгоритмы: Учеб. пособие/ Н.В.Костромина, Б.Л.Истомин. — Йошкар-Ола, 2000. -103 е.: ил.

74. Кочетыгов A.A. Базы и банки данных: Учеб.пособие/ А.А.Кочетыгов,

75. B.В.Моторин. -Тула, 1995. -104 е.: ил.

76. Кричевский М.Л. Введение в искусственные нейронные сети: Учеб. пособие/М.Л. Кричевский. 4.1 .-СПб., 1999. -139 е.: ил.

77. Кудряшев С.А. Классификация в системных исследованиях/

78. C.А.Кудряшев. М., 1995. -38 е.: ил.

79. Кузьмин Е.И. Государственная информационная политика и библиотеки: к проблеме взаимодействия/ Е.И. Кузьмин// Науч. и техн. б-ки. 2001. — №1. -С. 27-46.

80. Куприенко Н.В. Статистика. Методы анализа распределений: Учеб.пособие/ Н.В. Куприенко, О.А.Пономарева. 4.2. СПб.: Изд-во СПБГТУ, 2000.-128 е.: ил.

81. Ламерс А. Статистические вычисления: Пер.с нем.:Учеб.пособие для студентов всех спец/ А. Ламерс. -М., 1995. -61 е.: ил.

82. Лекции по теории графов: Учеб. пособие для студентов по спец."Математика" и "Приклад.математика'У В.А.Емеличев, О.И.Мелышков, В.И.Сарванов, Р.И.Тышкевич. -М.: Наука, 1990. -383 е.: ил.

83. Ловас Л. Прикладные задачи теории графов. Теория паросочетаний в математике, физике, химии: Пер с англ./ Л.Ловас, М.Пламмер. -М.: Мир, 1998.-653 е.: ил.

84. Мелихов А.Н. Теория алгоритмов и формальных языков: Учеб.пособие/

85. A.Н.Мелихов, В.И.Кодачигов. -Таганрог, 1983. -69 л.: ил.

86. Методы проектирования баз данных: Сб.докл.Балтийской науч.конф.,Рига 8-10 сент.1992. -Б.м., 1992. -111,184 е.: ил.

87. Мешалкин В.П. Введение в базы данных: Учеб. пособие/ В.П.Мешалкин,

88. B.Н.Фефелов, М.А.Пермяков. -М., 1993. -127 е.: ил.

89. Микони C.B. Методы и алгоритмы принятия решений: Учеб. Пособие /

90. C.B. Микони. Ч. 1.-СП6., 1995. -55 е.: ил.

91. Минченко Л.И. Многозначный анализ и возмущенные задачинелинейного программирования/ Л.И.Минченко, О.Ф.Борисенко, С.П.Грицай. -Минск: Навука i тэхшка, 1993. -167 с.

92. Михаилян-А. Некоторые методы автоматического анализа естественного языка, используемые в промышленных продуктахЭлектронный ресурс./А.Михаилян. ИНТЕЛЕК И3д-В0,2003.

93. Моклячук М.П. Методы оптимизации: Учеб. пособие. — Киев: УМК ВО,1990.

94. Нейронные сети и искусственный интеллект в задачах науки, техники и экономики. -Ульяновск, 2000. -135 е.: ил. -(Тр. Междунар. конф. "Континуальные логико-алгебраические и нейросетевые методы в науке и экономике"; Т.2).

95. Нейроинформатика и ее приложения: Тез.докл. -Красноярск, 1995. -93 с.

96. Нейроинформатика и ее приложения: Тез.докл. -Красноярск, 1999. -167 е.: ил.

97. Неклюдов С.Ю. Интегрированные информационные и программные среды. MS-Windows 95, NT, файловая система и стандартные приложения: Текст лекций/ С.Ю.Неклюдов, Л.М.Сорокин. СПб., 1998. -75 е.: ил.

98. Организация знаний: лингвистические аспекты:Прогр. и тез. докл. конф.-М., 1995.-31 с.

99. Панов В.А. Математические основы теории систем. Методы оптимизации: Учеб. пособие/ В.А. Панов. -Пермь, 1999. 76 е.: ил.

100. Плюта В. А. Сравнительный многомерный анализ в экономических исследованиях. Методы таксономии и факторного анализа/В.А.Плюта. —1. M.,1980.-80 с.

101. Пиотровский Р.Г. Математическая лингвистика/Р.Г.Пиотровский, К.Б.Бектаев, А.А.Пиотровская.- М., Наука, 1977. 254 с.

102. Пиотровский Р.Г. Инженерная лингвистика и теория языка/Р.Г.Пиотровский.-J1., 1979.-321 с.

103. Поиск по рубрикаторам в информационных массивах: Метод, рекомендации/ ВИНИТИ. М., 1992. -8 с.

104. Попов Э.В. Общение с ЭВМ на естественном языке/Э.В. Попов. — М.: Наука, 1982.-203 с.

105. Предметный поиск в традиционных и нетрадиционных информационно-поисковых системах: Сб.науч.тр./ Сост. В.Сахарный, В. П.Суворова; Рос.нац.б-ка. СПб., 1990. -172 с.

106. ПризментЭ.Л. Предметизационные системы и аппарат книги: (Теория и практика)/ Э.Л. Призмент. -М., 1999. -339 с.

107. Реализация баз данных Microsoft SQL Server 7.0: Учеб.курс.Офиц.пособие Microsoft для самостоят.подготовки:Пер.с англ. -М.: Рус.ред., 2000. -483 е.: ил.

108. Родионов В.В. Матричные методы отыскания кратчайших расстояний и путей на графах/ В.В. Родионов.-М.: ВЦ РАН, 1999. -74 е.: ил.

109. Рыков А.С. Поисковая оптимизация. Методы деформируемых конфигураций/ А.С.Рыков. -М.: ФИЗМАТЛИТ: Наука, 1993. -215 е.: ил.

110. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах/ В.Ш. Рубашкин. М.: Наука, 1989.

111. Сбойчаков К.О. Поиск схожих текстов: подходы к решению задачи/ К.О. Сбойчаков, М.А.Александров, П.П.Макагонов//Труды Международной академии информатизации ООН (Молдавия). Кишинев,2000. С.215-223. - Англ. яз.

112. Сбойчаков К.О. Демонстрационная версия электронной базы данных "Устойчивое развитие городов" // К.О. Сбойчаков, П.П. Макагонов, А.И. Бродовский, JI.H. Очагова.- М.: Знание, 1999.-87 с.

113. Сбойчаков К.О. Поиск схожих текстов в полнотекстовых базах данных по заданному образцу/ К.О. Сбойчаков, М.А.Александров, П.П.Макагонов// Материалы симпозиума по компьютерным приложениям CIC98. -Мехико, 1999.-С. 17-29.- Англ. яз.

114. Сбойчаков К.О. Классификация аннотаций докладов конференции/ К.О. Сбойчаков , П.П.Макагонов// Материалы симпозиума по компьютерным приложениям CIC99.- Мехико,1999.-С.87.-Англ. яз.

115. Сбойчаков К.О. Методика кластеризации коротких текстов на базе набора ключевых слов/ К.О. Сбойчаков, М.А.Александров, П.П.Макагонов// Избранные работы исследователей.- Мехико,1999.-С.32-37.- Англ. яз.

116. Сбойчаков К.О. Методика исследования предметно-ориентированных словарей при структуризации потока электронныхдокументов/ К.О. Сбойчаков, М.А.Александров,

117. П.П.Макагонов//Прнкладной анализ данных классификация и численные методы.- Б.г.:Шпрингер,2000.- С. 454-456. -Англ. яз.

118. Сбойчаков К.О. Описание автоматизированной системы классификации текстов/ К.О. Сбойчаков// Информационные технологии в библиотеках и информационное сообщество.-М.:ГПНТБ России, 2001.-С.47-51.

119. Сбойчаков К.О. О новой файловой структуре CDS/ISIS/ А.И. Бродовский, Н.А.Мазов, O.J1. Жижимов// Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: Тр конф.- М.,2001 .-Т. 1 .-С.92-97.

120. Сбойчаков К.О. Перспективы развития ИРБИС в плане применения системы смыслового анализа текстов для создания полнотекстовых хранилищ знаний современной библиотеке/ К.О. Сбойчаков//

121. Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: Тр конф.- М., 2003 .-Т. 1.-С. 122-125.

122. Сбойчаков К.О. Интерактивные прикладные методы анализа на примере истории социальных проблем Мексики/П.П.Макагонов, К.О. Сбойчаков // Материалы конф. по анализу данных и системному анализу.- Почука, 2003.-Т. 1.-С. 12-15. Исп. яз.

123. Семёнов Ф. Пока гром не грянет. Организация, технология и технические средства сохранения информационных ресурсов АБИС /Ф. Семёнов//С компьютером на Ты. -М.:Либерея,2000.- С. 10-19.

124. Семенова С.Ю. Исследование языковых средств выражения параметричсеской информации и алгоритмизация ее поиска в тексте: Автореф. дис. на соиск. учен. степ. канд.филос.наук:05.13.17/ С.Ю.Семенова. -М., 1994.

125. Смирнов Ю.М. Об одном способе построения синтаксического анализатора текстов на естественном языке/Ю.М.Смирнов, А.М.Андреев, Д.В.Березкин, А.В.Брик // Изв. вузов. Приборостроение.-1997. Т. 40, № 5 . - С. 34-42.

126. Семиотика и информатика / ВИНИТИ. М., 1993.- 255 е.: ил.

127. Система ВААЛ Электронный ресурс.- Режим доступа:Ьир://\у\у\у.уаа1.ги/.

128. СовпельИ.В. Инженерно-лингвистические принципы, методы и алгоритмы автоматической переработки текста/ И.В. Совпель. -Минск: Вышэйш. шк., 1991. -118 е.: ил.

129. Создание Корпоративной сети публичных библиотек Москвы: Рабочий проект. Т.1. / Науч. рук. д.т.н. Я.Л.Шрайберг, Отв. исп. к.т.н., проф. Ф.С.Воройский, А.И.Бродовский, М.В.Гончаров и др.-М.: ГПНТБ России, 2001.- 85с.- На правах рукописи.

130. Соколов A.A. Лингвистическая система обработки текстов на русском языке/ А.А.Соколов, А.М.Башлыков. -М.: ФизИнформМатАстрон, 1997. -31 е.: ил.

131. Степанов В.К. Библиотеки реальные и виртуальные в эру цифровых коммуникаций/ В.К. Степанов// Науч. и техн. б-ки. 2001. - №1. -С. 7175.

132. Столяров Ю.Н. Документный ресурс: Учеб. Пособие / Ю.Н. Столяров.- М.: Либерея, 2001. -149 с.

133. Столяров Ю.Н. Сущность информации/ Ю.Н. Столяров. М.,2000. -107 с.

134. Теория графов и ее применения: Сб./ ст. В.А.Скоробогатов; Редкол.:Н.Г.Загоруйко (гл.ред.) и др. -Новосибирск, 1996. -106 е.: ил.

135. Толстова Ю.Н. Анализ социологических данных. Методология, дескриптивная статистика, изучение связей между номинальными признаками: Учеб.пособие для студентов кафедр и фак.социологии/ Ю.Н. Толстова. -М.: Науч.мир, 2000. -350 е.: ил.

136. Филиппов В.А. Исследование операций: Учеб.пособие для экон.спец/ В.А. Филиппов. -М., 2000. -95 е.: ил.

137. Френкель A.A. Математико-статистический анализ многолетних наблюдений: Учеб. пособие/ А.А.Френкель, Т.А.Андреева. -М., 1990. -90 с. + Прил. 2 л. табл.

138. Шемакин Ю.И. Начала компьютерной лингвистики: Учеб. пособие/ Ю.И.Шемакин. -М.: Изд-во Моск. гос. открытого ун-та: АО "Росвузнаука", 1992. -114 е.: ил.

139. Ширяев В.И. Исследование операций и численные методы оптимизации: Учеб. пособие/ В.И. Ширяев. -Челябинск: Изд-во ЧГТУ, 1993.-58 е.: ил.

140. ШрайбергЯ.Л. Автоматизированные библиотечно-информационные системы России: состояние, выбор, внедрение, развитие/Я.Л.Шрайберг, Ф.С.Воройский.-М.:Либерея, 1996.- 271 с.

141. ШрайбергЯ.Л. Принципы построения автоматизированных библиотечно-информационных систем и сетей: Автореф. дис. на соиск. учен. степ, д-ра техн. наук:05.25.05, 05.25.03/Я.Л. Шрайберг. -М., 1999. -39 е.: ил.

142. Шрайберг Я.Л. Библиотека как объект автоматизации: схема формального описания, структуризация и моделирование на этапе предпроектного исследования: Препринт/ Я.Л. Шрайберг. -М, 1998. -33 е.: ил.

143. Шрайберг Я.Л. Интернет ресурсы и услуги для библиотек: Учеб. пособие для вузов культуры и искусств/ Я.Л.Шрайберг, М.В.Гончаров, О.В.Шлыкова. - М., 2000. -140 е.: ил.

144. ШрайбергЯ.Л. Основные положения и принципы разработки автоматизированных библиотечно-информационных систем и сетей. Главные тенденции окружения, основные положения и предпосылки, базовые принципы/Я.Л. Шрайберг. -М., 2000. -130 е.: ил.

145. Шумаков П.В. Delphi 3 и разработка приложений баз данных/ П.В.Шумаков. -М.: Нолидж, 1998. -704 е.: ил.

146. Щербаков М.А. Искусственные нейронные сети: Конспект лекций/ М.А.Щербаков. -Пенза: ПГТУ, 1996. -45 е.: ил.

147. Христьяновский Д.Г. Разработка механизмов извлечения моделей из баз знаний: Автореф. дис. на соиск. учен. степ, канд.физ.-мат.наук: 05.13.17/Д.Г. Христьяновский. -М., 1995. -18 с.

148. Яшин A.M. Базы знаний и экспертные системы: Учеб. пособие/ А.М.Яшин. — Л., 1990.-75 е.: ил.

149. Computational and Language E-print Archive Electronic resource. -Режим доступа: http://xxx.lanl.gov/find/cmp-lg.

150. Conexor (Functional Dependency Grammar) Electronic resource. -Режим доступа: http://wvvvv.conexor.fi/.

151. ERGO Linguistic Technologies Electronic resource. Режим доступа: http://www.ergo-ling.com/.

152. Extractor Electronic resource. Режим доступа: http://ai.iit.nrc.ca/IIjpublic/extractor.html.

153. Internet catalog Electronic resource. Режим доступа: http://www.rvb.m/soft/catalogue/catalogue.htm1.

154. Inxight Electronic resource. — Режим доступа: http://www.inxight.com/.

155. Joresrog K.G. Statistical estimation in factor analysis. A new technique and its foundation. Inaugural dissertation/ K.G. Joresrog. -Uppsala,1978.- 145 p.

156. Linda Van Guilder Handout for LING361, Fall 1995 Georgetown University Electronic resource. Режим доступа: http://wwvv.georgetovvn.edu/cball/ling361/taggingovervievv.html.

157. Lingsoft (ENGCG) Electronic resource. Режим доступа: http://lwwvv.ingsoft.fi/.

158. Linguistics Software Catalogue Electronic resource. Режим доступа: http://davidsonyuliya.boom.ru/catalog.htm.

159. Link Grammar Homepage Electronic resource. Режим доступа: http://bobo.link.cs.cmu.edu/link.

160. Human Language Technology Sector of the Information Society Technologies (1ST) Programme 1998 2000 Electronic resource. -Режим доступа: http://www.linglink.lu/.

161. Media Lingva "Следопыт" Electronic resource. Режим доступа: http://www.sledopvt.ru.

162. Prosum Summarizer Electronic resource. Режим доступа: http://transend.labs.bt.com/cgi-bin/prosum/prosum.

163. SPARKLE Shallow PARsing and Knowledge Extraction for Language EngeneeringElectronic resource. Режим доступа: http://www.ilc.pi.cnr.it/sparkle/sparkle.html.

164. Teragram Corporation (OEM POS tagger) Electronic resource. -Режим доступа: http://www.teragram.com/w3/home.htm.

165. TextAnalyst Electronic resource. Режим доступа: http://www.host.ru/~analyst/.

166. TIPSTER Text Program archive Electronic resource. Режим доступа: http://www.nist.gov/itl/div894/894.02/relatedprojects/tipster/.

167. Virtual Reality and Multimedia Conference Electronic resource. -Режим доступа: http://www.vsmm.vsl.gifu-u.ac.jp/vsmm98.

168. Zipf G.K. Human behavior and the principle of least effort/ G.K. Zipf. Cambridge: Univer. Press, 1949.