автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.09, диссертация на тему:Разработка и исследование способов свертывания и формализованного представления информации в вычислительных системах
Автореферат диссертации по теме "Разработка и исследование способов свертывания и формализованного представления информации в вычислительных системах"
. НАЦИОНАЛЬНАЯ АКАДЕМИЯ НЙШГ ЗКРДШ ИНСТИТУТ ПРОБЛЕМ МОДЕЛИРОВАНИЯ В ЭНЕРГЕТИКЕ
т од
•_} ¡Г"» *
с й |§35 На правах рукописи
ГРИЦВК Лвдиила Ивановна
РАЗРАБОТКА И ИССЛЕДОВАНИЕ СПОСОБОВ СВЕРТЫВАНИЯ И ФОРМАЛИЗОВАННОГО ПРЕДСТАВЛЕНИЯ ИНФОРМАЦИИ В ВНЧИСЛИТЕЛЬНИХ СИСТЕМАХ
03 Л3.09 - математическое к программное обеспечение вычислительных иаикн и систем
Автореферат диссертации на соискание ученой степени кандидата технических наук
Киев - 1999
Диссертацией является рукопись
Работ« выполнена в Институте проблем моделирования в энергетике HAH Украины , .
Научный руководитель: кандидат технических наук Э.Х.Борукаев
Официальные оппоненты: д.т.и. А.Н.Стасик
кл.н. А.ПЛокарь
Ведущая организация: Институт прикладной информатики при государственно* администрации г.Киева
Защита "состоится Sv. в _2Й^часов
на заседании специализированного'совета Д.01.91.01 в Институте проблем моделирования в энергетике по адресу: 292680, Киев-Ш, ул. Генерала Наумова, 15
С диссертацией иоино ознакомитьсл'в библиотеке' института
Автореферат разослан
9ченмй секретарь специализированного совета,
кандидат технических наук, Э.П. Сеиагина
/
Актуальность пРрдлемц. На современном этап* 'развития науки и техники ощутимые достижения • лкхгой сфер* исследований возможны Только при условии существенного повышения ка-Ч«сте* и оперативности получаемой информации В связи с этим - «ольыу» значимость при окатают «опросы децентрализованного накоплен«« информационных массивов с' обеспечением возможности еыстрого обмена информационными рвсуреамии и повышения эффективности средств вычислительной техники, реализующей переравотку информации. [ Что касаетсясобственно информации, те для ее хранения
. • в»»* данным <БД), оперативной овра«отки и предоставления для неоднородный сругт пользователей существенным является споео» организации на машиночитаемых носителям.этой »язи ■ ' приооретают значимость исследования, связанны* с формальным г ' представлением информации, что предполагает оперирование те-I ии единицами текста, которые Составляют его словесную Форму,
I - имеют Формальны* признаки выделявмости и служат индикаторами ; I содержания, а также изыскание методов и средств для хранения подготовленной подовыым о«раэ<м информации * вазе ванных.
Применение для реализации поставленных задач имеющихся как специализированных,так и универсальных пакетом программ подразумевает , во-первых,, использование Формы Представления данных, и* всегда у доеной для исследуемой предметной омасти / и, во-вторых, не всмгда позволяет автоматизировать этапы
исследования, специфичные для потревностей тематической области. Большинство из известных раэракоток связаны ливо с дополнительной специализацией вазового пакета в конкретных приложениях за счет подключения сервисных и Функциональных программных модулей, ливо с евзданивмепвциальногоинетру-менга исследования, «ключах«его информационное, алгоритмическое и программно* оввспечение, * также человеко-машинную технологию исследования.
Цел% Рфаоты. Целью диссертационной Работы является развитие методов построения концептуальных моделей данных »вычислительных системах и раэраясотка способов свертывания •модной информации и средств м Формализованного представления в базе данных с. учетом особенностей предметно-гтематичвс-кой'области. .
Для достижения поставленной* нояи.-Л* гдтосертдцмЦ).,-.выли Сформулированы й решены следующие задачи!
- Разработать обобщенную концептуальную модель - данным путай:исследования концептуальным, требований пользователей и естественным связей предметной области!
- исследовать информативность различным частей анодного документа и, используя концептуальную модель, выбрать метод
- его свертывания!
- исследовать возможности по отображению информации,: подлежащей хранению в вазе данным» на машиночитаемым носителям с позиций эффективности поиска и выбрать сносов ее формального представления с учетом осовенностей тематической области!
- обосновать выбор типа модели данным, построить смему .вазы данным и выврать метод управления данными для овеспече-ния эффективным процессов обработки и мранения информации!
- разработать соответствующее математическое обеспечение : для реализации таким Функций овравотки данным как хранение на машиночитаемым носителям, лексикографическую овравот-ку терминов тематической овласти и выдачу информации в ответ на запрос "Пользователей!
.■■■- разравотать. программный комплекс для .вычислительным систем, реализующий содержательную переработку информации и основные виды поиска предметной области.
Методы исследования? При решении поставленным задач в диссертационной работе выли использованы теория и методы проектирования информационным систем и ваз данным, а также-методы, и-средства разработки программного обеспечения для вычислительным машин и систем.
НйУЧНй* ИйВИЭНй. « основным научным результатам относятся следующие!
| -разработана методика построения обобщенной концепту— альнои модели данным, отражающая информационные требования пользователей и естественные связи предметной области;
-разработана методика построения определяющим матриц для Формального представления информации предметно-тематической области! ■.'....
- на основе анализа существующим информационно-поисковым языков, в зависимости от уровня интеграции лексики ее-
тестванного язык* разработан едины» информационно-поисковый «зык, обеспечивающий уменьшение семантическим ограничений для информации, хранящейся на машиночитаемым носителям!
• - разработана новая методика лексикографической обРаг вотки терминов тематической области, отличительной особенностью которой является приписывание •каждому термину из группы тождественным понятий условного эквивалента, той же группы.
Практическая данность Работы. На основе полученным в диссертационной работе результатов разработаны алгоритмы, реализованные в виде комплекса программным модулей в автоматизированной 'информационной системе <АИС> "ПОИСК", позволяющей хранить информацию на машиночитаемым носителям, производить ее поиск и выводить для просмотра всвврмутом виде, получать распечатки требуемым сочетаний реквизитов в соответствии с концептуальной моделью данным, в том числе реализоеы-вать важную для пользователей процедуру автоматического оформления списка литературы.
Решены практические задачи создания м ведения вазы данным по реферативному контуру по электронному моделированию, электрическим машик'лм, фонду описаний изобретений в академическим учреждениям и нумерационному фонду описаний изобретений по нескольким подклассам разделов 0 и Н Международной классификации изобретений.
Реализация Результатов Работы. Диссертационная работа выполнена в ИПМЭ НАН Украины в рамкам научно-исследовательским тем "Термин", выполненной в течение 1985-1909 гг. по Постановлению Президиума АН УССР N ¡537 от 5.12.84 г., "Автоматизация", выполненной в течение 1990-1991 гг^. по Постановлению Бюро Президиума АН УССР N ¿¿-Б от 7.03.90 г., и "Интерфейс", выполняемой в течение 1993-1994 гг. по постановлению ГКНТ N 13 от 1.03.93 г.
Публикации. Основные положения и Результаты диссертации нашли свое отражение в шести опубликованным работам.
Структура и объем Работы. Диссертационная работа состоит из введения« четырем глав, заключения' и содержит 148 страниц машинописного текста, 40 рисунков и 8 таблиц. Библиография содержит 181 наименование.
СОДЕРЖАНИЕ РАБОТЫ
' Во вврпенчщ показана; актуальность, . научная новизна и практическая значимость работы,: определены цель,- задачи и методология исследования,
В первой ¿главе отмечено, что система информационного обслуживания,-призванная предоставлять потребителю новую информацию,- определяющую стратегию и тактику научного поиска, выбора направлении исследования^ 'постановку задачи и методы ее решения,* может- выть представлена тремя составляющими -документальной, фактографической и концептограФичеекой, которые могут Функционировать только на основе своим специфичны» рядов вторичныхдокумвнтов.Для получения последним используют аналитико-синтетичеекую переработку информации -способ преобразования исходной информации, «кдмчакжий совокупность операций по систематизации, анализу и синтезу информации и поаволяижий вылазить содержание исходного текста в более экономичной Форме при сохранении или некотором допустимом уменьшении его информативности, : называемый свертыванием« -
Рассмотрены виды свертывания информации в зависимости от сферы коммуникаций. Это обусловило появление научного и информационного свертывания! в зависимости от типа" и характера потребностей в информации, что обусловило появление двух подходов к евертывамиюг метаинформативного* связанного с подготовкой вторичных документов библиографического ряда, и информативного, связанного с подготовкой документов Фактографического ряда. Исследованы информативность и функции аннотаций и Рефератов как наиболее распространенных способов интеллектуального свертывания в сфере информационного обслуживания«- ' _
Обовцвны факторы, влияющие на процесс свертывания, и .отмечено, ч"го выбор способа Свертывания информации определяете«»
- назначением подготавливаемых вторичных документов}
- им потенциальной вклАцагемостыъ в ту м4№ иную сферу информационного обслуживания?
- характером входной информации; "
■ V 7.
- типом структуры текста»
- спецификой отрасли или предмета, для которых создается вторичный документ. ,
Отмечено, что .»особым и наиболее распространенным видом свертьмания информации является индексирование — описание содержания и Формы сообщения средствами- того или иного информационно-поискового языка (ИПЯ). Такой язык предназначай для Формализованного описания смыслового содержания документов и составления запросов к системе на поиск и выдачу информации. Проведен анализ ИПЯ в зависимости от уровня интеграции лексики естественного-языка, в связи с чем выделены два большим классе языков - посткоординируемые и предкоорди-нированные ИПЯ. Установлено, что посткоординируемые ИПЯ предназначены для такого способа использования, при котором сложные классы строятся из простым сначала при переводе (потенциально), а затем реально при информационном поиске.' Рассмотрен наиболее' .распространенный язык .этого класса -даскриптарный и, наряду с его преимуществами и удовлетворительными Результатами при использовании д т поиска науч-но-темнической информации, отмечены недостатки при использовании для другим видов поиска, е частности, для. патентного. Рассмотрены системы, . близкие по подходу к дескрипторным, но имеющие табличную Форму выражения и реализованные в виде матриц! показана модификация матриц с учетом специфики отрасли. Относительно предкоордини^уемым ИПЯ установлено, что они имеют такую структуру, при которой перевод текста сводится к включению его в предварительно построенные сложные классы. В -той связи рассмотрены перечислительные классификации, в'частности! Международная классификация изобретений, используемая в области патентного поиска, Фасетные классификации и Функционирующие на им основе информационно-поисковые системь) <ИПС). Выполнена сравнительная характеристика дескрипторным и классификационных языков с точки зрения эффективности поиска информации путем сравнения коэффициентов полноты <П> и точности (Т)I
П-ВР/Р, ■■■ Т-ВР/В* .■■ ' где ВР - количество выданным релевантных документов!
Р - количество релевантным документов в поисковом массиве!
- а -
'..'В'- омн количество документов, выданным в ответ на запрос. 0
т :Отмечено увеличанме точности поиска при использовании дескрипторных ИПЯи повышение полноты выдачи для классмфика-
. :ционным язык оф......1'.
Рассмотрены также другие типы языков, в частности* язык ^библиографическим ссылок, специализированные ИЛЯ, которые .организации —Генераторы БД разрабатывают и используют для узким' тематическим направлений; При этом отмечено, что ка' чество - того : или иного информационного языка можно оценить* сравнив им а процессе поиска', проводимого с помощью ИПС, которые в зависимости от характера выдаваемой информации под-1 Разделяются на документальные и фактографические. Помимо этой 'классификации и ее детализации на основе известным Функционирующим систем, рассмотрена классификация ИПС по ряду другим оснований;
Проведен анализ способов Формирования запросов на поиск информации, . : исследовано влияние субъективного Фактора и выработана общая стратегия поиска, '■.:
ВтоРа-и г-рав^ посватана построению обобщенной концептуальной модели данным, дающей обще» представление о предметной области и позволяющей правильно сформулировать задачу по исследованию способов свертывания информации предметной области. : Первым-шагом на зтом пути явилось определение границ предметной области* поскольку решение мюёой. Функциональной задачи {возможно лишь при наличии необходимым и достаточным знаний не только о ее сути, но и о Фрагменте реальности* к которой она относится. В »той- связи выли проведены исследования по анализу информативности различным видов документов, в 'также статистические исследования частоты и объема им встречаемости в реально- существующим БД, что предопределило ^ыбор патентной информации для дальнейшего представления в БД.
Исследование динамики информационным потребностей пользователей в зависимости от этапов НИОКР показало, что информационное обеспечение должно адаптироваться- не столько к плановым, сколько к техническим этапам, поскольку характер информационных' потребностей - даже на одном и той же плановом этапе может еыть различим« дл». рвздичны* категорий .е.яеи.иа'-
* 9 — ■ ■ * -■'
листов и определяться условиями конкретной задачи, совокупность которых образует логическую структуру разработки. Исходя из этого, разработана методика исследования и Формирования информационных потребностей пользователей,включающая!
. - использование таким форм получения информации, как анкетирование и интервьюирование потенциальным пользователей! ■ ■. ■
- знание проектировщиком БД предметной области , что; достигается лило тесным контактом с заказчиком, либо использованием собственного опыта работы в конкретной области!
- изучение Форм ведения поиска, характерных для рассматриваемой предметной области!
- изучение традиционных форм учета и отчетности, принятым в предметной области, а именно« картотек по ведению патентного Фонда, справочным материалов и отчетов, содержащих сведения о динамике изобретательской деятельности, а также журнала'регистрации 'заявок на изобретения. '
Исследование влияния характера информационным по-рее-ностей на степень свернутости текста показало , что в случае» когда специалист не может достаточно четко сформулировать свой запрос или ему нужна информация тематического, или систематизированного .характера, только первичный документ может удовлетворить его потребности. • Для выбор* последним нужны вторичные документы» служащие, для ориентации в тематическом документальном потоке, т. б. документы бивяиографичее-кого ряда. В случае,' когда потребности специалиста могут выть удовлетворены определенным Фрагментом текста, степень свернутости информации в котором выше или ниже, чем в первичном документе, нужны вторичные документы, служащие для ориентации в информационном потоке, т.е» документы фактографического ряда..:.
Выделение библиографической составляющей из текста •модного документа не вызвало затруднений,, поскольку она, как правило, представляется * стандартизованной Форме» а для рассматриваемой предметной области идентифицирована №-1ИД-кодами и сгруппирована л виде библиографического описания, расположенного на первой странице описания изобретения.
Выделению фактографической составляющей предшествовал анализ структуры частей описания изобретения с позиций ин-
. ■■.;.- Ю--"'':
,ФоРматиености. Былоотмечено, что мптя некоторые реквизиты библиографического описания и несут фактографическую нагруа»- ... ку в виде указания, на объект и область применения, эффективность фактографического поиска по ним невысока и информации онныйшум составляет 63-70%.: Вследствие этого акцент переместился на собственно» описание изобретения. Были проведены > исследования по определению объема информации, подлежащего вводу в базу: данных, способного удовлетворить информационные ' потребности пользователей. Для. этого были рассмотрены аль-,тирнативные. варианты по .представлению информации в полнотекстовой и свернутой Формам.V
Сравнительный анализ- полнотекстовых БД показал, что, с■ одной стороны, мранение полным текстов документов в памяти ЭБМ требует слишком много места и материальных затрат, что расточительно! с другой стороны - попросту дублирует массив документов, работа с которым в процессе автоматизированного поиска требует дополнительным интеллектуальным затрат,, мотя для данной. предметной области имеются предпосылки для их. значительного сокращения, обусловленные высокой степенью . структуризации патентным документов.
'Рассмотрение методов свертывания информации , в частности .реферирования, как наиболее распространенного метода,
выявило Ряд ограничений, вызванным как субъективным Фактором ;.....
<неоднозначностью Формализации, сложностью выявления семантической информации), так и невозможностью описывать некоторые факты' традиционными средствами, что характерно для Функциональным смем, мимическим структурным ' Формул,- блок-смем электронным -устройств и объясняется противоречием между стремлением к - универсальности при свертывании и высокой приспособленностью техническим решений.
Исследование описания , проводимого с учетом особенностей тематической Области - электронного моделирования/, в которой Результаты научным исследований и конструкторских разработок .характеризуются сложными структурными построениями, выраженными в виде Функциональных смем и описанными в Формулам изобретений, показало, что наибольшую фактографическую нагрузку Для этой области несет именно Формула изобретения. Исследование с учетом остальных Факторов, влияющих на процесс свертывания и выявленных в первой главе,, так^кй. ;указ»>>вэ-
■ ■ - 11 - .
вт на Формулу изобретения^ как квинтэссенцию всего описания) она является единственным критерием определения объема изоб-, < Ратании и имеет большое значение.для прогнозирования, поскольку открывает возможности для дальнейшим изысканий.
Внимание к Формуле с позиций ввода в базу данных объясняется тем, что ее можно отнести к .полуформализованному Фрагменту первичной информации, поскольку ее составление структурировано, что регламентировано нормативными актами. Дополнительные ограничения на структуру Формулы, введенные нами для информации тематической области и состоящие в разграничении состава и связей элементов схем и на протяжении Ряда лет испоЛьэуейые при составлении заявок на изобретения, создают дополнительные предпосылки для ее Формализации и автоматизации ввода в базу данных.
Посла'описания анализа информации предметной области и Формирования Ряда запросов по фактографическому полю путем синтеза информации, выделенной при анализе предметной области и информационных потребностей пользователей, была построена обобщенная концептуальная модель данных и структурирована по направлениям поиска.
Исследовано та..же воздействие рассмотренных категорий информации, используемых в процессе построения концептуальной модели, на характеристики БД и отмечено, что учет одних Информационных потребностей пользователей обеспечивает доступ только, к текущим приложениям, что значительно сужает возможности проектируемой €Д. Включение для анализа информации о предметной области расширяет ее возможности, благодаря использованию незапланированных приложений.
Описанная методика построения концептуальной модели данных представлена в работе в виде схемы.
Третья глава посвящена Изысканию способов Формализованного представления фактографической информации, выделенной на предыдущем этапе проектирования БД. В связи с этим были проанализированы возможности по отображению я БД полного
текстового фрагмента и его графического представления в виде
■
Функциональной схемы. Оба указанные способа оказались непри-емлимыми. Так, первый способ сопряжен с материальными затратами, аналогичными затратам при использовании.полнотекстовых БД., Второй . способ, хотя формально и Реализуем, требует,
.во-первых, дополнительной интеллектуальной обработки тексто- ■ вого материала, связанного*с отсутствием нормализации терми- . нов тематической, области и заменой на схемах названий зле" ' ментов и узлов цифровыми обозначениями, и, во-вторых, связан с определенными техническими трудностями ввода графических изображений на машиночитаемый носитель. .
а - Приведенные аргументы указывают на необходимость дополнительной обработки ■ свернутой информации перед введением в вазу с целью' уменьшения интеллектуальных затрат пользователей при поиске. Предпосылки для этого! !
г- .введение обязательных дополнительных ограничений на . структуру частей формулы изобретения!
- включение в формулу выверенных терминов, что обусловлено рядом, требований, предъявляемых к ее составлению, в частности, лаконичности» определенности, общности и полноты, обеспечение .которых во многом зависит именно от правильного выбора терминов. '■'.'■■■" '
Анализ-имеющихся информационных языков показалнесосто--ятельность их применения в чистом виде для рассматриваемой тематической области. Это обусловлено тем, что известные языки на могут достаточно точно отражать связи между элементами структуры, особенно тогда, когда, структуры включают наборы одинаковых элементов, имеющих Разветвленную систему связей между собой и с другими элементами. Так, дескриптор-нне ИПЯ не/в состоянии решить задачу индексирования документ-то», относящихся к области вычислительной техники, схемотехники, т»е. там, где обычно выделяются особенности построения Функциональных схем устройств. Поэтому для отражения сущности изобретения, выраженного в виде Функциональной схемы и описанной в Формуле изобретения, возникла необходимость в отыскании средств и методов по адекватному отображению в БД структур и включающих подструктур, составляющих суть конкретного технического решения.
Для Решения задачи формального представления наиболее природным оказался матричный метод обработки информации, обусловленный табличной формой его реализации и способностью обеспечить нужную степень детализации при поиске. Однако использование известных и широко применяемых в процессе г»а-теитцого поиска аналитических И структурных матриц И®.- дал®
',**" 13 "
положительным результатов. Подоено-ряду исследователей, модифицирующим известные матрицы для Различным тематическим областей, выли разработаны и исследованы матрицы для темати-;ческой области "электронное моделирование"^ Им марактврным отличиям является указание не только входящих в Функциональную смему блоков устройства« но и Фиксация им вмодов и выходов по строкам и столбцам матрицы соответственно. Такая матрица стала пригодной для отоеражения фактографической информации тематической области« поскольку, помимо состава, позволила отражать' связи мвжду блоками. Ряд дополнительным усовершенствований, . таким как разграничение блоков ограничительной и отличительной частей Формулы изовретения, позволяющее выделить новизну, привнесенную в процессе создания изовретения, указание цели изовретения и Фиксация различным типов связей между елоками, создали предпосылки для реализации перспективным запросов пользователей.
фактически вся информация, содержащаяся в Формуле изовретения, представлена на матрице в интегрированном виде, что и обусловило выбор названия матрицы - определяющая. В случае, если вы идея изовретения потревовала вольшей степени детализации, предложенную методику можно выло вы использовать для представления информации на уровне узлов и элементов устройства, описанного в Формуле изобретения. Схема построения определяющим матриц такова, что позволяет заполнять их путем последовательного "движения" по Формуле изобретения, избегая возвратов, чему способствует жесткая структуризация Формул изобретения изначально и ввод ограничений на их структуру, осуществленный в процессе исследований и обусловленный особенностями тематической области.
В работе приведена поэтапная реализация процесса постт роения определяющим матриц, начиная от выделения приоритетных направлений предметно-тематической области до построения результирующей матрицы для абстрактной Функциональной схемы! разработано руководство по построению определяющим матриц. Использование определяющим матриц позволило информацию, содержащуюся в Формуле изобретения, представить формально, т.е. завершить первый этап Формализации и начать разработку математического обеспечения по ее отбражению на машиночитае-«ые/носитали.
■ ■■■ 14 - ■
. Поскольку назначением БД -является не только-, хранение информации» но и обеспечение связей между Различными элементами данных^ 'необходимых для эффективного представления в. ответ на запросы, возникает потребность в соответствующем уровне ее проектирования. Для этого были исследованы взаимосвязи выделенных данных, произведено сравнение.их структуры со структурными средствами известным моделей данным, что. и предопределило выбор реляционной модели для рассматриваемой предметной области. Исследование данным, подлежащим вводу в БД, с позиции теории нормализации - основного понятия Реляционной модели, состоящего в группировке элементов данных в ряд.отношений и основанного на том, что определенные наборы отношений в процессе модификации обнаруживают лучшие, свойства по сравнению с любыми другими наборами, содержащими те же данные, позволило путем последовательного приведения -данным от первой нормальной формы к третьей получить схему реляционной модели данным предметной области "Патентный поиск".
- Практическая разработка и реализация автоматизированной информационной системы потребовали выбора конкретного инструментального средства, который был осуществлен путям анализа альтернативных средств (параметрически настраиваемых универсальных средств, программного обеспечения на языкам высокого уровня и СУБД) и завершился выбором реляционной СУБД РохВАЗЕ.
Четруотая глава посвящена разработке математического и программного обеспечния для ведения Формализованных данным первичной информации.
На, этапе их ввода в базу данных предусмотрено использование вспомогательного -файла, поля которого соответствуют реквизитам емодного документа и Расположены в порядке им следования'в документе. Реализовано перераспределением введенным во°вспомагательный Файл данным в автоматическом Режима по реальным Файлам в соответствии со схемой базы данных.
это'позволило! .1. .
- облегчить процедуру ввода данных за счет "линейного" ввода требуемым реквизитов в одном цикле Работы с массивом описаний! '
- отказаться от использования на этапе ввода библиогра-
'. . I
»5 - ..
Фической информации широко распространенным промежуточным операций, связанным с введением предмашинным Форматов подготовки данным!
' \ снизить вероятность ошибок оператора'га счет визуального контроля и редактирования данным с помощью дисплея»
Что касается фактографической информации, ' представленной формально с помощью определяющим матриц, то согласно разработанному алгоритму, ее ввод е БД не требует дополнительной интеллектуальной обработки и осуществляется путем занесения я соответствующее поле вспомогательного файла названий элементов на естественном языке. Они вводятся через запятую, с указанием в скобкам им количества, если оно превышает единицу. На следующем шаге из вспомогательного Файла эта информация затем переносится в Файл-тезаурус и Файл состава элементов смемы с использованием специально разработанного ИПЯ, состоящего из сочетания буквы латинского алфавита и цифры, символы которого заранее не перечисляются, а строятся динамически в процессе ввода ноеым данным. , .Разработанный ИПЯ марактериэуется!
- компактностью, поскольку его термины - двум- или тремэначные символы!
- простотой формирования, поскольку, осуществляющий эту процедуру алгоритм достаточно прост!
- прозрачностью для пользователя, т.к.процесс индексирования осуществляется автоматическим путем, а пользователь в процессе обращения к БД оперирует привычными для него терминами тематической области!
- неограниченным диапазоном терминов, являющимся Функцией цифрового диапазона.
Предложенный яэык относится к классу посткоординируемым ИПЯ, а по сути наиболее близок к классу дескрипторным языков. Поэтому было проведено им сравнение» в результате которого выявлены преимущества предложенного языка, а именно!
- отсутствие мнемонической связи между терминами ИПЯ и естественного языка, которым они приписываются, позволило получить преимущества^ связанные с явлением устранения субъективного Фактора и создало предпосылки для организации процесса индексирования автоматическим путем!
- уменьшений семантическим ограничений за счет приписы-
- -
••имя каждому термину естественного «зык* его эквивалента на ИПЯ, ■ то время как е дескрипторном язык* одий дескриптор соответствует группе ключевым слов» . ,
~ отсутствие зависимости язык* от ов-ьема и приращения
НОВЫМ ЗНАНИЙ.
Что касается вопроса лексикографической овравотки тер- . * мимов» состоящей в нормализации терминов и устранении им синонимии, полисемии, омонемии и т.п.,. этот.проиесс, всегда, сопровождающий процвсс индексирования независимо от вида ИПЯ и особенностей предметно-тематической области, сопряжен с ' большими интеллектуальными затратами, связанными с привлече- ■ нивм высококвалифицированным специалистов, хорошо владеющим терминологией тематической овласти; Поэтому потребовался детальный анализ этапов формирования БД, на котором такая об-
равотка являлась вы наиволее рациональной,- а именно! этапа аналитико-синтетичвСкой переработки информации и построения, определяющим матриц, этапа формирования вспомогательного Файла, этапа индексирования, связанного сформированием Фай-ла~т*эауРуса и Файла состава элементов смамы. Ни на'одном из перечисленным этапов проведение.лексикографической овравотки не выло признано целесообразным, поскольку не обеспечивало совладения установок, принятым при Формировании БД, в частности! сокращения затрат специалистов отрасли, одноразового обращения к .каждому экземпляру описания изовРетения из обрабатываемого массива, а также обеспечения минимальным потерь при информационном поиске. Отсутствие'лексикографической овравотки терминов на указанным.'Этапам приводило к расширению' Файла-тезауруса за сче-h появления в.йен синонимии, однако* --"'. это не вызвало. изменения намеченной стратегии, поскольку расширение тезауруса для- узкотематицеекик областей является незначительным. Им можно,примееречь по сравнению с выгодами, Ьолучаемыми за счет устранения потерь-введенной информации вообще.
: Разработанная методике '-.овравотки терминов предусматривает проведение распечатки Фрагмента Файла-тезауруса после Очередного его формирования и направление элтвм высококвалифицированны* специалистам для проведения лексикографической обработки с последующим занесением выявленной синонимии в Файл синонимов в автоматизированном- режиме. Это дает возмож-
■ . .■. . ■' '17. r-
йость пользователю при составлении запроса на поиск оперировать привычными ему терминами, выбираемыми из меню, сформированного исключительно из названий элементов тематической области. Последнее обеспечило достижение 'однозначности в терминологии для выражения поискового образа документа и запроса, что позволило их максимально приблизить и тем самым .увеличить полноту выдачи^ В отличив от методики составления классического тезауруса, здесь группы тождественным понятий не заменяются дескрипторами, ..а каждому из понятий ставятся в соответствие синонимы исключительно из терминов выделенной ■■ГРУППЫ. • ' ■■•■■■.
Разработано также математическое и программное обеспечение для Формирования запроса на поиск и проведения поиска, Реализуищее диалоговый режим общения и позволяющий избежать ошибок, связанным с-предварительным формированием запроса, а также отказаться от услуг инФопосРедника.
Представлена смема Функциональным возможностей АИС "ПОИСК", реализованная в виде комплекса программным модулей и
■. ...... .. , \
позволяющая осуществлять основные виды поиска предметной об-■ I .•
ласти.
В заключении приведены основные научные результаты и практические выводы по работе.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
Основной результат диссертационной Работы состоит в том, что предложен комплексный подкод к решению задачи формализованного представления, . свертывания.информации и построения концептуальным моделей данным в вычислительным системам. ' . ' ' ■ ■■ ■ ...:•■
Кроме того получены следующие научные и практические результаты!
1. Показана необходимость свертывания входной информации для'удовлетворения информационным потребностей пользователей на любом уровне информационного .обслуживания посредством специфичным Рядов вторичных документов. Исслвдована зависимость между подходами к свертыванию информации, обусловленными типом и характером потребностей, и Функциями порожт даемык вторичных документов. Обобщены Факторы, влияющие на
процесс свертывания информации и обусловливающие выбор способа свертывания.'
'2. Раэрявотана методика исследования и формирования информационным потребностей пользователей и установлено влияние характера потребностей на степень свернутости текста.
3. Путем синтеза информации, выделенной при анализе-информационных потребностей пользователей и анализе информации предметной области, построена обобщенная концептуальная мо— даль данным, . отражающая семантику объект* и инвариантная по, отношению к методам управления данными.
4. разработана методика Формального представления фактографической информации входного'документ« на основе анали-тико-синтетической переработки информаци предметной области. .
Проведено и исследование модели с позиций теории нормализации и. построен* схема реляционной модели базы данным предметной области "Латентный поиск".. :
6. Разработан единый ИПЯ, позволяющий уменьшать.семантические ограничения для индексируемой информации »а счет приписывания каждому термину его эквивалента на ИПЯ. <
:7. разработана методика лексикографической обработки терминов тематической области.отличающаяся отсутствием обобщающим терминов для групп тождественным понятий.
. . • 9- Разработано математическое обеспечение для реализации функций мрамвния .данным, лексикографической обработки терминов тематической области, формирования запроса на поиск информации и проведения^поиск*.
: 9. Разработан программный комплекс, реализованный в автоматизированной информационной системе "ПОИСК*V обеспечивающей выполнение основным видов поиска предметнойобласти.
, Основные результаты диссертации опубликованы в работам' f\: .''З'г ; ^...v; 1-.U ;■1
1.•борукаев з.Х., ; Грииюк Л.И. Особенности формирования и ведения; базы данных автоматизированной информационной сие-Т^ы- "Патенты" // НТИ.сер. 1.-1993.-N12.-С. 15-18.
2. борукаев З.Х., ГРицюк Л.И.j Скуридин В.П. Патентная служб*) поиск ведМТ ЭВМ// Вопр>изобретательства.-1991.-N3.-с.30-33.
3. Прицкж Л.И. Автоматизация работы патентного подраз-
делении ' // . Интеллектуальная собственность. -1994.-.N3-4. -с.53-37.
4. Приток Д.И. Некоторые «опросы генерации фактографической информации /Л Тем же.-1994.-МЗ-А.-С.43-46. <
... В. Грицюк Л.И. Построение концептуальной модели вазы данным автоматизированной системы (тематическая овласть-.зяектронное моделирование) // НТИ.сер.2.-1994.-ЫЗ»-с.1-4. .'
А. Борукаев 3. X., Грицюк Я« И.., Скури дин в.П.Об одном подходе к построению автоматизированной информационно-Поисковой системы для патентным подразделений.-Киев, 1990.-Звс*-<Препр.АН УССР. Ин-т проблем моделирования в.энергетике» 90-22).
В работай СП, 12Э, С61 автору принадлежит'
С1Э - разработка программного .обеспечения,
С2,63 - разработка конкретный методовобработки входных данных« ориентированных на использование ЭВМ.■ ■:
iSRTTSm L.I." DEVELOPMENT AMD IHVESTIGATÏOH QF METHODS OF INFORMATION FOLDING AND FORMALIZED REPRESENTATION IN COMPUTING
SYSTEMS . '
Dissertation for candidate of science degree by speciality 05.13.09 "Software of computing machines ! and systems". The institute of simulation Problems in Power of National Academy of Science of UKralne. Kvlv, 1995.
During the information storage in database the method of Information organization, and representation on the machine-readable medlujn is highly essential; In connection with this, a complex of standardization restrictions of an input documents array of the problem field and mechanism for its formalized representation are developed. The method of database forming is proposed, which implements automatic redistribution of information inputted by a single access to the Input document. The computer technology of maintehançe of formalized data of initial information is developed, in particular, the t.echnl«iue of dictionary processing of topical field's terms, and unified information retrieval language is developed too. which ensures absolute matching to the terms of natural language.
rpaqUK X.I. Роаробка та доол1ляеяняаасоб1а«гор*аяк> ' та («pvuiisianro лодаш 1я*ориац1Х я обчяоявяальяяи ояб-* танах, г
Iioapiaqn аа адову*** ячвявго • отупякв каяхяха*а нщнш яаук я опяцхаяьяоо*! 03; 19.00 - иа*ама*ячяа *»: програняа яабвапвчаяяя обчяеляяая»яяк иаяяя: *а .-. ояетан, . 1яо*ису* пррблам м/яалваання ■ аяяргвхяц! ВАН Украхяя»>КяХя, 1993.
' Пря в0ар»яаяя1 1я|ормац1Х а бая* даяях оу**«вям с яао1б XI opruiaai|H *a подаявяна яос1ях, як1 чяхав*ься мав'мва-ня, в аа*явку,в чаи роароблаао коипявкс обмаяяяь по е*йяяар-< «яяаци ' ВН1ЯЯОГО маояяу хокуивя*1в пряхивтнох оваавт! та влврат цм II |вриаа»аого «вхаааа/ Вякоряохаво вас1б форму-» яаяяя хаяяк, яавяякя «кому р«ая1яу«тьоя аятоиатячня* пярв-равпоя1я 1я|орнаци.'аявяамох яяяхои охяораяояого яапрааяяя-яя до маеяау ях1хяяя докуияя*1я. Рояробяяяо комл'яхеряг тям* I яолопв яадаяяя 4ормал1аоаанях данях пвряяяяох 1яСормац1Х. | яокрака, мвтохяку явкоякогра|1чяохобробкя хярм1я!я хвмахяч-| яох облает1 *а«дя1> 1я|орнаЦ1*яогпояукоау моя у, яка яябяа-I пячу* абсояятяу я1хпоя1 днют» «яршяам пряродяяох нова.
| _ Кяячоя 1 оловв! агортаяяя 1и|орма1|1Х/ 4орма*1вояаяв по-*
I-' хаяна. • 0бчясявяаякя1 ояетвмя.
I '
Подписано к печати z5.os.msг. формат 60x84/16 Вумат офоетная Усл.-печ.лист./(аУч.-изд.лист/,0-Тирак ¿оо. Заказ г55. Бесплатно
Полиграф, уч-к Института электродинамики АН Украины, 253057, Йиев-57, проспект Победы, 56.
-
Похожие работы
- Формализованное дифференцированное свертывание (аннотирование и реферирование научно-технических документов)
- Формализация свертывания краеведческих документов публицистического характера
- Модели и алгоритмы обработки слабо формализованной информации в технических системах
- Модели и алгоритмы обработки слабо формализованной информации, поступающей от технических систем
- Разработка комплекса имитационного моделирования узлов вычислительных сетей с коммутацией пакетов
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность