автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Инвариантные свойства псевдорелевантных векторов в задачах информационного поиска

кандидата физико-математических наук
Муртозаев, Насим Халимович
город
Москва
год
1994
специальность ВАК РФ
05.13.17
Автореферат по информатике, вычислительной технике и управлению на тему «Инвариантные свойства псевдорелевантных векторов в задачах информационного поиска»

Автореферат диссертации по теме "Инвариантные свойства псевдорелевантных векторов в задачах информационного поиска"

РГ6 и

2 3 МЛ? ИМ

МОСКОВСКИ!! ОРДЕНА ЛЕНИНА II ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ ПЕДАГОГИЧЕСКИЙ ГОСУДАРСТВЕННЫ!! УНИВЕРСИТЕТ ИМ. В. И. ЛЕНИНА

Специализированный совет К 033.01.10

На правах рукописи

МУРТОЗАЕВ Насил Халпмовпч

ИНВАРИАНТНЫЕ СВОЙСТВА ПСЕВДОРЕДЕВАИТИЫХ ВЕКТОРОВ В ЗАДАЧАХ ИНФОРМАЦИОННОГО ПОИСКА

Специальность 05.13.17 — Теоретические основы информатики

АВТОРЕФЕРАТ

диссертации па соискание ученой етспенн кандидата физико-матсматичесхгнх наук

Москва 1994

Работа выполнена в Институте проблем кибернетики Российской Академии наук.

Научные руководители:

доктор физ.-мат. наук, профессор РЕШЕТНИКОВ В. Н.,

доктор флз.чмат. паук, профессор СОТНИКОВ А. Н.

Официальные оппоненты:

доктор тех. наук, профессор СЕМЕНОВ Н. А.,

кандидат физ.-мат. наук, доцент ТЕРЕХИН А. II.

Ведущая организация — ВЦ РАН, г. Москва.

Защита состоится 15 апреля 1994 г. в 15.00 час. па заседании Специализированного Совета 'К 053.01.16 в Московском педагогическом государственном университете по адресу: 107140, Москва, Краснопрудная ул., 14, математический факультет МИГУ им. В. И. Ленина, ауд. 301.

С диссертацией можно ознакомиться в библиотеке МПГУ имени В. II. Ленина но адресу: 110882, Москва, Малая Пироговская улица, д. 1, МПГУ им. В. И. Ленина.

Автореферат разослан «............»........................1994 г.

Ученый сек анного совета

КУЗНЕЦОВ

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность теми исследования. Электронно-вычислительные) машины широко применяются для создания систем сбора и обработки различной информации, которая используется при проведении естественнонаучных экспериментов, решении экономических задач и т.д. Но для того, чтобы говорить о создании ЭВМ информационного типа, необходимо в первую очередь разобраться в самих задачах информационного поиска, создать адекватные математические модели проходящих процессов, провести исследование этих моделей как с точки зрения построения оптимальных методов хранения, обработки и поиска информации, так и с точки зрения разработки требований к обрабатывающему оборудованию.

Важнейшими составными частями всякой автоматизированной информационно-поисковой системы (АИПС) являются ЗВМ и база данных. Саза данных состоит из информационного массива (архива системы), управления базой данных - программного комплекса, который позволяет обрабатывать эти данные, проводить поиск, коррекцию и т.д.

Информационный массив содержит данные для широкого круга пользователей. Из опыта известно, что каздыЗ из пользователей интересуется какой-то одной частью данных, связанных с его задачами. Интересы различных пользователей могут пересекаться. Обслуживание большого числа пользователей требует организации массива данных, которая позволяет при обработке каждого запроса вести поиск наиболее быстрым способом.

Для определения характеристик АИПС, удовлетворяющей вышеперечисленным требованиям, необходима математическая теория информационного поиска, т.е. надо перейти от конкретных АИПС к

математическим моделям, поело исследования которых можно будот определить параметры высокоэффективных ЛИПС.

Степень разработанности проблемы. Среди различных методов построения моделей информационного поиска в первую очередь необходимо отметить теоретико-множественный подход Г.Сэлтона и реляционную модель информационного поиска Е.Кодца. Как развитие теоретико-множественной модели Сэлтона, Н.Н.Решетниковым продложена алгебраическая модель информационного поиска, в которой задача поиска по запросу q в архиве Т информационной системы сводится к задаче поиска решений на коночном множестве Т линейного пространства V, dim V <«>, специальной поисковой системы линейных алгебраических уравнений

Aqx=q (I)

где А^ (оператор проекции на линейное подпространство) и вектор q однозначно строятся по запросу q.

В рамках линейной алгебраической модели (I) все ранее известные метода и модоли информационного поиска получили единую интерпретацию и обгаую концепцию. Оказалось, что реляционный ыотод Кодда, иерархический, сетевой метода и т.д. есть не что ияоо, как различнее метода решения поискового уравнения (I) на конечно« множестве г.

Основная вдоп кэтода исследования влгобрвической модели, (названного методом Z-структуры), заключается в том, что поисковые образы документов разбиваются на группы близких записей d выбранной метрика. КаздоЯ группе ставится в соответствие некоторая совокупность признаков. Анализ этих признаков позволяет строить множество релопшггшх поисковых образов документов.

используя эффективные поисковые процедуры.

Алгебраическая модель позволила существешшм образом расширить рамки традиционных подходов к построению множества ответов системы, а именно ограничив его релевантным множеством.

В рамках рассматриваемой модели А.Н.Сотниковим била исследована задача приближенного -поиска, т.е. поиска информации близкой в определенном смысле к критериям, которые задаются и запросе. Множество близких по смысловому значению ответов определятся множеством решений задачи

р(А x,q) —> min (2)

Ч (р

Предложенная стратегия поиска базируется на Ъ - структуре поискового множества и позволяет в общем случав сократить множество данных, на которых выполняется.основная поисковая операция. Предложены методы и разработаны алгоритма поиска псов-дорелевантных запросу q векторов на мнокестве с заданной на нем Z - структурой, обеспечивающей с заданной вероятностью Р выдачу всех псевдорелевантных векторов.

В работах Решетникова В.Н. и Сотникова А.Н. решаются две задачи при поиске информации из архива

a) задача точного поиска (i 2 q)

b) задача приближенного поиска (х *> q).

Решение этих задач позволяют осуществить быстрый поиск н полноту, искомой информации. Необходимо отметить, что при решении этих задач использовалось понятие "меры близости" ио вместе с тем остались не рассмотренными их свойства.

В работе А.Н.Сотникова и Е.Г.Трофимовой рассматриваются некоторые свойства мор близости в задаче информационного поис-

ка, сделаны оценки соответствия ПОЗ и ПОД для некоторых мер сходства.

В настоящее время в этой области остались не исследованы такие задачи, как соотношение между псовдоролояантными множествами вычесляемым метриками близких по смысловому значению но различных по арифметической структуре, при композиции двух метрик, соотношения между метриками и решения задачи многокритериального информационного поиска.

Основные задачи исследования:

- изучение использования ^-структуры при решении задач поиска релевантных и псевдорелевантных векторов,

- анализ многокритериальных задач информационного поиска и соотношение метрик в псевдорелевантном поиске,

- соотношение между различными метриками,

- исследование соотношения меаду псевдорелеиаитшми иноке ствами при композиции двух метрик,

- разработка программного комплекса обработки данных анкетного типа.

- экторшантальная апробация программного комплекса с использованием реальной статистической информации.

Научная новизна и практическая ценность работы. Проводогашо исследования дат возмоиюсть изменять исходную мэру сравнения при поиске псевдоролевантных векторов с целью сокращения времени, затрачиваемого на вычисления и сохраняя при атом смысловую структуру запроса.

Исследована информационная структура различных мор сравнения.

Созданы комплексы программ:

IАрхивизации и ¡'операции анкет социологических исследований (АГАСИ)

2) автоматизированное рабочее место социолога (АРМС), для обработки информации конкретного класса анкет, с поелодующим проведением игрового эксперимента; Оба комплекса программ вне • дрены в Российской Академии управления и Таджикском филиале Всесоюзного научно-исследовательского института прикладных автоматизированных систем /ТФ ПНИИНАС/ ИШТИ. Основные результату диссертации:

1.Предложена и исследована многокритериальная алгебраическая модель поиска псевдорелевантных векторов.

2.Предложен и обоснован метод построения псевдорелевантных множеств, обладающий меньшей арифметической сложностью вычислений, по отношению к исходному и сохраняиоГций отношение релевантности.

3.Разработан и реализован на базе мини ЭВМ программный комплекс обработки данных анкетного типа.

Апробация р/1боты. основные результаты диссертационной работы докледовались и обсуждались на Всесоюзной школе-семинаре молодых ученых и специалистов "Социальная информатике - ЭО", г.Москва , Нпх)г., на заседании школы-семинара "Автоматизация обучения новым информационным технологиям на ЕС ЭВМ и ПЭВМ", Г.Душанбе , 1'.№г.

Публикации. Но теме диссертации опубликовано 6 научных работ.

Структура работы. Диссертационная работа состоит из авв-

дсния, Г> параграфов, заключения, приложения и списка литературы.

Содержание работы. Во введении рассматриваются основные подходы в области математического моделирования АИПС, анализируются наиболее известные способы сопоставления поисковых образов документов и запросов и приведена постановка задач данного исследования.

В §1 дани основные сведения и понятия релевантных, псон-доролевантных векторов, £ - структуры и показаны некоторые методы решения задачи (2).

' Пусть Г архив АИПС, который состоит из документов .....I

Содержание документов г{, описывается элементами дос-

крилторного словаря Б=(с1),... ,сЫ причем не обязательно всеми одновременно. Запросы поступающие в АИПС имеют вид ... ,с!(),

г

(I, С О, /=/,г\ т.е. требуется найти документы, в описании ко-V

торыд участвуют дескрипторы <3, . ..<3,, причем дескрипторы с}(..

1 г J

JxГ,~r могут быть связаны логическими функциями "и", "или","не".

А Л

Квадому документу ( Т, ставится в соответствие поис-

ковый оСраз-воктор линейного пространство V

рагг^эрпостн ш над полом 12 где

I, если йл Г., 1"17п,

V

{I, если г(1 О, если й^

Обозначив чераз с V поисковый образ архива Т. Каждому запросу Ч-Сй......<1. вставится в соответствие пара

г

(А^.с■]), где оператор проекции на линойноо подпространство, пороздпниое векторами е канонического базиса

1 г

t? .....& линейного пространства V, q - вектор, для которого

<7{--1, если дескриптор dt содержится в запросе q без логического отрицания, q --0 в остальных случаях, Векторы, релевантные запросу (7, и только ош являются решениями систем!/ лилейного уравнения (1).

Таким образом, нахождение в архиве Т документов, релевантных запросу <7, равносильно поиску всех решений системы (I), принадлежащих множеству Т.

Определение. Вектор tQ€ Т называется вектором псевдорелевант-ннм запросу q, если

р(A(jt0,q), = min р(Aqt,q) (3)

где р - некоторая выбранная метрика.

Если min р(4 t,q)-0 то псевдорелевантные векторы совпадают с

tp Q

релевантными запросу q.

Псевдорелевантное множество определяется как

Г: t*---argmln p(Aqt,q)) (4)

Рассмотрим разбиение множества Т на конечное число непустых

м

непересекающихся подмножеств с. Т, т.е. Тt, Tj- 0,

для l/tj. Пусть подмножество образуют векторы

над каноническим базисом (еf,...,е ) линейного пространства V,

, п i _ _ t

Ca^t'je Cü' J-l'P ' разложение веторов Т{ в этом базисе.

Поставим в соответствие множеству Tt вектор tjg)ee,

который назовем характеристическим вектором подмнояества Множество - (U 1 характеристических векторов назовем характеристическим множеством первого уровня. Аналогично, если задано разбиинио мнчжсгть.'! и' m конечное число непустых' непересекающихся ПОДМНОЖЕСТВ, МоКНО ПОСТрОИТ! №' характеристическое

- в -

множество второго уровня и т.д.

Опроделоние. Совокупность {?, и',..., Ик) множоствн 7', коночного разбиения СТ }, характеристического множества пир вого уровня и', коночного разбиения и т.д.. называется

7. - структурой множества Т. Элементы разбиения 7'(,г/|,... на зываются зонами.

Рассмотрим некоторые метода решения подачи (ГЛ. Пусть даны поисковое множество Т с V и запрос г/. В общем случае, поиск векторов, на которых достигается уравнения (й). осуществляется перебором всех эломентоь I^ Т, J-'1fn, что является трудоемкой задачей для массивов большой мощности. Для решения задачи поиска псевдореловантных векторов продля гается использовать Z- структуру поискового множества (З.М.

р . .

Представим множество Т в виде 7--- у Г*П 7^=-(01, при этом будем полагать, что подмножества Т° состоит из попарно сравнимых между собой векторов. Образуем множества верхних и нижних характеристических векторов

: ив= Т. (ааг ?]) е , (Ь)

о о о о

Введем следуйте обозначения: .....р)

V Р(^'Я) • Р0- Р(Ляи0.Я> •

о*!р0(Л^,д): V < ^, > -

Подчеркнем, что все ррассматриваются гфи условии Л^г ч ц , что следует из правил построения модели. Тогда имеют место елодушио теоремы.

Теорема I. Пусть

1. pC^t.qj ( G;

2. подмножества Т°, c=i7p упорядочены таким образом, что справедливо р^ рр

Тогда если iс = min с, где подмножество индексов

3 о I

3=fc: ao>ß(J, то подмножество Г , где сI g g > с0 не со-

держить решения задачи (2) или псевдорешешя задачи (I). с с

Теорема 2. Пусть Jt 0 € Р где

с

pM4tC°,qJ< ао , с € 3 . 3 с I

Р °=fi € Г argp>n p(Aqt,q)}

тогда и Т° не содержат решений задачи (2)

Сформулированные утверждения дают основания для следующего алгоритма решения задачи (2). Алгоритм I

1. Вычислить значения ао и Ро , c=i7p.

2. Упорядочить ßo по возрастанию.

3. Определить многество индексов 3. 3=ic; ao>ßf - а Ъ 2)

4. Если 3 Ф (0), то вектора подмношства Г°: о € 3 асяшь чить из рассмотрения на принадлежность к нногеству рзшениЭ задачи (2), иначе перейти к п.9.

5. Определить множество индексов 1=1\3.

6. Вычислить а, = min а..

" о cd 0

7. Определить множество индексов 3=(cd:ag>k0).

8. Перейти к п.4.

9. Остановить процесс.

Проставленный алгоритм в общем случав позволяет сократить объем множества Г при решении задачи (2).

Рассмотрим еще один подход к решению задачи (2). Пусть

V , .

как и ранее У ,2'°, Г П и каждое из Гс состоит из

попарно сравшм« между собой векторов. Образуем множество 1УВ=Ш°, с=7в соответствии с (Б). Теорема 3. Пусть иеС, тогда задачу (2) можно свести к задаче

р(А х,ц) —> т1п (7)

где |ЯГВ|<|Т|.

Замечание: Если в задаче (7) мощность множества (Ув будет по прежнему велика, то полагая Т=Т(В и сделав соответствующие построения мохшо использовать Алгоритм I.

В предыдущих рассуждениях в задаче разбиения множества 2' на подаиокоства Т° кес?ка оговаривалось условие Т1П Рас-

смотрим более общий случай разбиения множества Т. Как и ранее критерием разбиения остается понятие сравшшости векторов.

VI

Представки гдо 7'°-всевозмоише группы попарно сршгтхх медду собой векторов, упорядоченных по невозрастанию. Понятно, что ш > V. Обозначим в соответствии с вышеуказанным В,-«|.....^ )

■ш

Теорема 4. Пусть для заданного оператора А^ выполнено

А I { = А г1 =

Ч ' Ч 2

л г" = а х%

ч 1 я г

А 1™= А Х^ Ч 1 Я 2

= А г1 > А г' , q г1 я г( + г

= л > л г° . (8)

ч го а гt)fí

= А Х™ > А Xю , а г ч г +1 «I ш

тогда задача (2) эквивалентна задаче

рМ —> т!п 4 в,....в

/ ш

О)

Сформулируем соответствующий алгоритм. Алгоритм 2.

1. Вычислить значения Ь?,Ь2.....Ъш

2. Определить номер Ъ^ Ьг >...'> Ъ1 * Ъ1 + 1 » ... * Ъш

3. Построить множество Р: ? » ЗгЛ 51+(П ... П Вш

4. Остановить процесс.

В §2 рассматривается случай когда при решении задач информационного поиска приходится решать многокритериальные задачи. Такого рода задачу можно сформулировать в ранках рассматриваемой модели следующим образом

р.(А х,а) —> т1п ' 4 Т

............................(Ю)

Ргцх,<?; —> т1п

Для решения задачи (10) существует ряд известных подходов, в частности методов сведения многокритериальной задачи к одаокритериальной, а именно: а) ыетод линейной свертки:

вмосто задачи (10) рассматривается задача

р(Aqx,q) —> min (П)

где л г

7в- весовые коэффиценты; 7д>0 и

Задача (10) может быть сформулирована при условиях

P^Ax.q) < < пр (12)

где T]Jf...,T}r - некоторая система контрольных ограничений. Тогда ьгоено использовать следующий подход:

б) вместо задачи (10) рассматривать задачу

p(Ax,q) —> min (13)

ч у

в) вместо вадачи (10) мовао рассматривать задачу

$(Ax,q) —> min (14)

ч f

пра ограничениях (12), гдо

г) матод вещевая кэтршш в пространства целевых функций; газ сто задачи.(10) рассиатривевтоя вадача

h(t) —> nin (16)

7

где h(t) - (а1,(Рв(А t.q)-pe(Aqfe,q))s)1/z,

которое представляет собой евклидово расстояние в пространстве критериев от текущей точки (р1,...,рг) до точки "абсолютного

минимума" (р*.....р*) . При эта точка недостижима и мй-

нимизация критерия на) дает представление о предельной возможности достижения "абсолютного минимума". Отметим, что в качестве иа) можно взять и другие меры близости в пространство критериев.

д) метод построения множества Парето: зафиксируем некоторые желательные значения критериев

V я С,

Рг(ЛяХ,Я) = сг

где С1,...,Сг должны принадлежать так называемому множеству предельных возможностей. Далее рассмотрим следующие задачи

Г _> т1тп

(16)

Р,- с

► • •

Рг-Г Сг-,

решая которые определяем точка Л,.....Аг в пространстве крато-

риев и строш простейшую аппроксимацию шокоства Парэто. Дате меняем аначення С},...,Сг а строим, решая аналогичны?? задзчв. очередную аппроксимацию. Проделывая подобную процедуру необходимое число раз получим аппроксимацию кнояэства Парето, т.е.

множество векторов

„ „ /

T=(t) t е г : pg(Aqt,q)<pJAqt,q)

Указанные выше метода позволяют свести многокритериальную

задачу (И) к задаче однокритериальной

p(Ax,q) —> min (17)

ч у

Однако такого рода замена может оказаться непригодной ввиду большой мощности множества Т и следующей отсюда необходимости полного перебора элементов этого множества при решении задач минимизации. Рассмотрим возможные пути преодоления этих трудностей.

Если в задаче (10) pg(Aqt,q) € G, з=17г то и

1. p(Aqt,q) € G

2. р(Aqt,q) с G

3. $(Aqt,q) € G

При использовании метода построения множества Парето в каждой из задач (16) мокет быть использован тот или иной алгоритм отсечения при решении соответствующей задачи минимизации. ТЕОРЕМА 5. Пусть выполнены условия

1. pg(Aqt,q) € С, 3=*ТГ

2. Для каждого в=1Цг определены различные

f-ar^in PaUqt,q) р* - pJAqfe,q)

где Г - множество индексов тех подмноаоств Т°, которые не со-дераат решений соответствувдях задач (17) в задаче (10). Тогда

г

если 3 к «Л, I : К и (0), то задачу (10) можно свести к за-

• в * I 0

даче

h(t) —> min (18)

rNUTo h

Использование алгоритма отсечения для решений задачи (10) в случае использования метрики в пространстве критериев, может оказать двойную услугу. Во-первых, при решении задач вида (17) и, во-вторых, как следствие, представляется возможность решать задачу минимизации критерия h(t) на множестве меньшей мощности.

В §3 в задаче приближенного поиска (2) определяется понятие смысловой близости документа требованиям запроса. В рассматриваемой нами модели эта проблема решается введением множества метрик (симметрию. При этом возможны два принципиально важных момента: либо пользователь работает с некоторой фиксированной симметрикой, информационный смысл которой ему хорошо известен, либо он участвует в конструктированни сииметрики. Во втором случае процесс конструктирования требуемой меры близости как правило интерактивный, на каждом шаге которого происходит уточнение с целью приближения ее к мере в наибольшей степени обеспечивающей информационные потребности.. В связи с этим важно знать как соотносятся между собой различные симметрики с точ1ш зрения получаемого при их использовании множества ответов.

Доказывается следующая теорема. ТЕОРЕМА 6. Пусть р,(х,у) i G, pjx.y) ( С, х $ у. Тогда если Vx,y справедливо pf(x,y) 4 p^(x,y), то

РЯЛ =argnln pjx.y) с ar&nln р,(х,у)= FR,

Uo fn с ml Hl

Рассмотрится следующие мер плипости, для которых справедлива Теорема 6.

р ¡(х.у)* тах/х^у/ ;

Рг(х,у)= ft|/хгу/к)1/ь ;

Р3(х,у)= 1-(i%xiyi-l21(1-xi)(1-yi))/m ;

я.

р4Сх,уМ 1-(iZ1xtyi)/m ;

in m tu

Ps(x.y> 1~(4tif^y{vrts,i{*t|,ytJ ;

1Л ni m *

Р6(Х.У)= 1-(il1xiyi)/(l; Для них имеет место следующее:

1. pt(x,у) с G,

2. р, « р2, р3 < р4, р5 < рб

Далее рассматривается композиция двух метрик, пусть

Р=Р,+Р2 (23)

н р,р(,рг псевдометрика, тогда имеет место следующее соотношение

PRJP с PR Т, 1=1,2 (24)

к

Пусть ЗГ*—2*yU Тг , каждому подмножеству Tf ,!Гг поставим в соответствие характеристические векторы î/)B, U^ и Um, U^. Ввэдзи сведущие обозначения

аъ*Р('Аяиы

Рассиотраы два случая: I. Рг*рг

2* , г до X=conat.

I. Пусть р,«Хрг , тогда шэют место следующие равенства

u, $ p,(t.q> ç ß, л, < pjt,q) « су Ал,, ,

я

• ■ Р,-

р-( I >\)рг , су- р a-i 1 *\)а,

s.

fi- ( i Ф,

Ип этих равенств сдглпом елодуицив выводи:

1) Кгли \ такое, что для него ßfe< а тогда (24) невыполнима, т.е. условия ¡i

—- > i

а есть условие выполнимости (24).

2) Ксли . i t(: р(A t t,q > > ßk > 11 lie является пелвдоролсваптпым.

Ксли ' píA t.,at ■: ß. '•» I'fí.T с m f и PRn Т ч ' к Р Р, Рг

Так к aie

а, < Pj(tfl,q) i ßj, для UX--U

tl>\Hip í í l0,q I ^ ( ПК)рг

а $ p(t0,q) $ ß отсюда следует, что если tQ псовдоролопшшшЯ ьоктор по метрике р , тогда

РКп Т ь Щ'Г (25)

M ? к

также, если £ нспвдороловантний ноктор по метрике р. т.к. a í pít(.,«7) ,< {)

для пкч:

í ) i Г.Л г с rl\ ^ « ГА "

аг < р2(г0.ч) « Р2 -

РЛ-?1 С РЯ т (26)

Р

Из (25) и (26) следует, что РЯП7' = Р/?Л Т

г г 2

тогда имеет место следующая теорема Теорема 7.

Если г р=р,+ р2

РНп Т = РИЛТ , 1-1,2. (27)

(. р,=Лрг Р< Р 2. Для второй случай когда р,Ар2 имеет место следующая теорема.

Теорема 8.

Если Г р=р(*р2

РДлГ с РИп Т , (=1,2. (28)

I Р Рс

Сформулированные теоремы дают основание для следующего

алгоритма решения задачи (I).

Алгоритм 3.

1.Строится множество РН^

2.На множестве РЕп поиск РНп

Г 1 г

Этот алгоритм используется когда метрика р более проста (удобна) для вычислений относительно метрики р.

Отметим, что эти теоремы неисчерпывают всех мер близости, которые могут быть использованы для решения рассмотренных задач, равно как и неисчерпывают всех возможных соотношений моа:ду метриками. Ваано то, что метрики, удовлетворяющие сформулированным выве требованиям используются на практике и могут быть "выводимы" одна из другой.

Я вопросы программного и информацион-

ного обеспечения задачи создания программного комплекса для архивизации и генерации пнкот социологических исследований.

К сожалению приводится констатировать недостаточное развитие информационного обеспечения социологических исследований в стране. Это выражается и в конкретных организационных обстоятельствах: социологические структуры слабо озабочены формированием собственного фонда социологической информации (почти везде накапливаются прежде всего публикации, я инструментарии, программы "чужих" исследований поступают редко), имеющаяся информация справочного характера редко оформляется в общедоступном виде и т.п. Следствием этого являотся фрагментарность социальной информации как практической (нет централизованного хранилища, отсутствуют "каноны" оформления документации и ее хранения, пет свободного каталога), так и теоретической (отсутствуют социологические теории отдельных элементов или целиком социальной сферы).

Решение всех этих сложных проблем тробуот проведения комплексных научных исследований в области совершенствования информационных процессов, координации научно-исследоватвль ских работ и повышения :>Ф1вктипности использования вычислительной техники при обработке социальной информации.

На этапе создания инструментария исследования наиболее трудным является разработка анкеты. Поэтому использование уго прошедших апробацию анкмт. созданных в специализированных социологических организациях для разработки новых, является одним из путей повышения качественного уровня исследований и

облегчает трул социолога-исследоватоля.

Большинство автоматизированных систем используемых для обработки анкет предназначены для анализа и хранешя анкет заранее обговоренного стандарта, что не позволяет пользователю производить дополнительные процедуры, выходящие за рамки данного стандарта. В целях устранения данного ограничения необходимо разработать такую систему, которая дает возможность пользователю в диалоговом рожиме формировать различные варианты анкет, используя широкий набор их составных элементов, хранящийся в архиве. Это позволяет облегчить пользователю работу но дополнительной логической увязке методики формирования анкеты и характера проводимого социологического исследования.

Автором реализован данный подход при создании базы данных для архивизации и генерации анкет социологических исследований (АГАСИ), опирающегося на возможности информационной среды "АСГПЛД - 'Г.

В §5 рассматриваются вопросы программного и информационного обеспечения задачи создание программного комплекса для обработки амперических данных социологических исследований.

Развитие методов программирования стало одной из основных причин появления массового "непрограммирующего пользователя" ЭВМ, так как появились такие инструментальные средства, которые или дают возможность осуществлять "программирование без программистов"; или позволяют обходиться без программирования при решении необходимых задач.

Одной из разновидностей таких информационных технологий является технология автоматизированных рабочих мост (А1М). АШ

включает проблемно-ориентированный программный комплекс, реализованный на базе средств вычислительной техники, способный при участии человека решать ряд задач и выполнять необходимые оперпшта и процедуры, характерные для той или иной профессиональной деятельности. АРМ специалиста обеспечивает процедуры: ввода-вывода, хранения, отображения, корректировки, обработки и анализа информации.

Автором разработано автоматизированное рабочее место социолога (АГМС), которое обрабатывает информацию конкретного класса анкот, с последу кипим проведением игрового эксперимента. Система выполнена н виде пакета прикладных программ на языке Паскаль.

Система построена в диалоговом рожиме, имеет развитый сервис и рассчитана на широкий круг пользователей, независимо от их уровня математической и компьютерной подготовки.

Система ЛГМС обладает следующими качествами и особенное -тями:

- нацелена на оперативные социологические исследования;

- проста в использовании и достаточно универсальна для первичной обработки социологических данных;

- содержит ряд оригинальных возможностей обработки и анализа данных;

- создает и поддерживает информационную базу, допускающую многократное использование введенных данных социологических исследований;

- продоставляет широкие позмокности для формирования вторичных -значений признаков (типелогические группировка!

на основа комбинация уже имеющихся;

- позволяет обрабатывать данные как с вводом и последующим использованием текста анкеты, так и без него;

- ориентирована на последовательный (сквозной) способ кодировки (нумерации) ответов на вопросы анкеты;

- позволяет использовать номинальные и порядковые шкалы; использование интервальных шкал и шкал отношений не предусмотрено;

- допускает возможности расширения; Функциональная схема системы показана на рис.1.

справоч. инф-я макеты докум-ов эмпир-кая инф-я тексты докум-ов

ВХОДНАЯ ИНФОРМАЦИЯ

Управление выполнением функции системы

"I, --

Формаль.

-логич.

контроль

редакт-б

Получение справоч. инф-ии (справка по иссл.)

Формирование рабоч. массивов Выбор под-массивов

Ыассив справ, инф-ии Массивы макетов докум-в Массивы эмпир-кой инф-ии Массивы текстов док-ов

ИНФОРМАЦИОННАЯ БАЗА

Преобр.

эмпирич.

инф-ии

Распред., группир., классиф-я

Другие

матем-е

методы

К сис-е учебного модель-я

л

Оформление и вывод результатов

Форм-е

вых-форм

На На

вид. пе-

тер. чать

Выходная

инф-я

РМС. I

Слоксхома функционирования изображена на рис.2.

Выбор исследований или ввод нового исследования

Выбор возможных уровней работы

а О

Г-и 0*

с <

с

а сО

•с

с

г4. О Л

се'

.0

й) у

X

а

а

ь £ «V

О сО

г-О

С . X

ч

:7>

а

2 ?

гС ¿3

О

«А

¡А с.

•1) О

о с

а) л!)

Рт ■р

X

о

I &

<0 .-г У

(О о

■С Ш

а о

и? О

о о

а. С 05 гО

с! О Я СИ

<

Ф а.

-ч О

5 X

а.

Р

£ <и а с а. ¡У

п X А

а г

о

а

I

а

ц

,-х Ч

а/

и ;« <->

* -

<1^ -а

С 2

г

й V а. £

5,1 ^

Рис.г.

В заключении сформулированы основные результаты работы, {'опультаты работы внедрены для практической эксплуатации в Российской Акодпмии Управления и ГГИО ТпдвикКШГГИ. Но томе диссертаций опубликовано 6 работ. Основные поло»о»гая диссертации опубликовать в работах: I. Автоматизированное рпбочоо моего социолог:). - 13.сб.: Сони-

альная информатика (тезисы докладов школы-семинара) Москва,

1990г., с.93.

2. К вопросу машинной обработки социологической информации. -В сб : Автоматизация обучения новым информационным технологиям на ЕС ЭВМ и ПЭВМ, (тезисы докладов школы-семинара). Душанбе то ТадаикНИИНТИ, 1990г.

3. Применение новых методов в оценке эффективности развития и размещения общественного производства республики. В сб.: Региональные проблемы экономического и социального развития. ( сб. докл. Респ. научно-практической конф. молодых ученых и специалистов). Душанбе: Дониш, 1991г., с.184.

4. Информационная структура компьютерного процесса архивизации и генерации анкет социологических исследований. /Деп. в ВИНИТИ, М 96 - В93.

Б. Автоматизированное рабочее место социолога на базе мини ЭВМ типа ОМ. /Деп в ВИНИТИ, М 97 - В93.

6. Некоторые свойства мер близости в задачах информационного поиска. "Центрпрограммсистем", Л I, г.Тверь, 1994 г.