автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Исследование языковых средств выражений параметрической информации и алгоритмизация ее поиска в тексте

кандидата филологических наук
Семенова, Софья Юльевна
город
Москва
год
1994
специальность ВАК РФ
05.13.17
Автореферат по информатике, вычислительной технике и управлению на тему «Исследование языковых средств выражений параметрической информации и алгоритмизация ее поиска в тексте»

Автореферат диссертации по теме "Исследование языковых средств выражений параметрической информации и алгоритмизация ее поиска в тексте"

р р £ М^^рТЕРСТВО НАУКИ И ТЕХНИЧЕСКОЙ ПОЛИТИКИ

РОССИЙСКОЙ ФЕДЕРАЦИИ. РОССИЙСКАЯ АКАДЕМИЯ НАУК * 1 __________________________-________________

ВСЕРОССИЙСКИЙ ИНСТИТУТ НАУЧНОЙ И ТЕХНИЧЕСКОЙ ИНФОРМАЦИИ

На правах рукописи

УДК 801.3+681.3.06(043.3)

СЕМЕНОВА Софья Юльевна

ИССЛЕДОВАНИЕ ЯЗЫКОВЫХ СРЕДСТВ ВЫРАЖЕНИЯ ПАРАМЕТРИЧЕСКОЙ . ИНФОРМАЦИИ И АЛГОРИТМИЗАЦИЯ ЕЕ ПОИСКА В ТЕКСТЕ

(05.13.17 - Теоретические основы информатики)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата филологических наук

Москва - 1994

Работа выполнена во Всероссийском институте научной и технической информации Российской АН и Министерства науки и технической политуки РФ.

Научный руководитель: доктор филологических наук

ПАДУЧЕВА Елена Викторовна Официальные оппоненты: доктор филологических наук, профессор

на заседании диссертационного совета Д.003.02.01 во Всероссийском институте научной и технической информации Российской АН и Министерства науки и технической политики РФ (125219. Москва, ул. Усиевича. 20а).

С диссертацией можно ознакомиться в библиотеке ВИНИТИ.

ГОРОДЕЦКИЙ Борис Юрьевич: доктор технических наук.

кандидат филологических наук ЛЕОНТЬЕВА Нина Николаевна. Ведущая организация: Российский государственный

гуманитарный университет.

Защита состоится

часов

Автореферат разослан

Ученый секретарь

диссертационного совета

доктор биологических наук, профессор

М.А.Каменская

МИНИСТЕРСТВО, НАУКИ Н ТЕХНИЧЕСКОЙ ПОЛИТИКИ РОССИЙСКОЙ ФЕДЕРАЦИИ. РОССИЙСКАЯ АКАДЕМИЯ НАУК

ВСЕРОССИЙСКИЙ ИНСТИТУТ НАУЧНОЙ Н ТЕХНИЧЕСКОЙ ИНФОРМАЦИИ

1

На правах рукописи

. УДК 801.3+681.3.06(043.3)

СЕМЕНОВА Софья Юльевна

ИССЛЕДОВАНИЕ ЯЗЫКОВЫХ СРЕДСТВ ВЫРАЖЕНИЯ ПАРАМЕТРИЧЕСКОЙ ИНФОРМАЦИИ И АЛГОРИТМИЗАЦИЯ ЕЕ ПОИСКА В ТЕКСТЕ

(05.13.17 - Теоретические основы информатики)

А (ГГ О РЕФЕРАТ диссертации на соискание ученой степени кандидата филологических наук

Москва - 1994

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы.

При создании современных информационных систем, способных перерабатывать и хранить большие массивы текстовой информации, а также при разработке программных средств поддержки диалога в воп-росо-ответных системах с интерфейсом на естественном языке, весьма актуальна проблема направленного поиска и представления одного из важнейших типов фактографической информации - информации о количественных параметрах устройств, материалов, процессов и других объектов, описываемых в научно-технической литературе. Проблема поиска информации о физических, технических, стоимостных и других параметрах (информацию такого рода мы будем в дальнейшем называть параметрической) приводит к необходимости изучения языковых средств выражения этой информации и, в частности, синтаксических и семантических свойств параметрических существительных, таких как длина, температура, стоимость, возраст и т.п. В дальнейшем мы будем называть их также параметрическими именами (ПИ) или'именами параметров (количественых параметров).

Параметрические существительные, образующие важный в практическом отношении и интересный с лингвистической точки зрения семантический класс, постоянно привлекают к себе внимание исследователей. В частности, изучались семантико-синтаксические свойства отдельных групп ПИ, их регулярная многозначность (Ю.Д.Апресян), особенности поведения в позиции подчиненной предикации и в кон-, текстах косвенных,вопросов (Е.В.Падучева). Кроме того, анализировались некоторые единицы параметрической лексики, относящиеся к другим частям речи, в частности, описывались морфологические, синтаксические и семантические свойства параметрических прилагательных (Ю.Д.Апресян, А.Н.Куринский, И.Л.Мельчук), проводился логический анализ параметрических глаголов (Ю.Д.Апресян, И.И.Богуславский).

В литературе по прикладной лингвистике определенное место заняли машинно-ориентированные описания синтаксических конструкций с именами параметров и описание способов представления словарной информации для этих имен (Ю.Д. Апресян. А.Е.Гуревич. Н.Н.Леонтьева, В.Ш.Рубашкин, Г.Г.Яровая). Исследовались конструкции с сочинением и эллипсисом, выражаюи'ме количественную информа цшо (И.А.Большаков. Е.В.Падучева).

При разработке автоматизированных информационных систем

з

нашла широкое применение идея представления информации о параметрах и признаках различных объектов с помощью триад "объект"-"признак"-"значение", а также предикатно-актантных структур (Г.Г. ' Белоногов, Н.А.Криницкий, Г.А.Миронов, В.А. Успенский. Г.Л.Фролов и др.). В русле'автоматической обработки текста создавались системы, способные вести поиск и анализ параметрической информации в узких предметных областях (Д.Г.Лахути и др.).

Однако, многие свойства параметрической лексики, а также другие аспекты проблемы поиска параметрической информации еще не изучены.

Цель исследования состояла в том. чтобы определить состав класса ПИ в целом, изучить актантную структуру имени параметра, соотношение его синтаксических и семантических валентностей, со-четаемостные свойства, таксономические категории объектов, характеризуемых по тому или иному параметру, а затем на основе результатов лексического анализа разработать алгоритм поиска информации о параметрах и их значениях в научно-технических документах. '

Задачи исследования. Для достгкения поставленной цели необходимо было решить ряд конкретных задач:

- разработать критерии отнесения существительного к классу ПИ. выделить данный семантический класс из множества всех имен существительных;

- определить различия в лексико-синтаксических свойствах ПИ и выделить однородные группы имен в рамках данного класса;

- описать важнейшие контексты употребления ПИ;

- изучить основные средства выражения параметрической информации без использования ПИ;

- разработать алгоритм поиска параметрической информации в тексте и формализм для ее представляли в информационной системе.

Объекто" исследования служат-языковые средства выражения-параметрической информации. Основное внимание уделяется параметрическим существительным. *

, Методы исследования. При изучении семантических и сочетае-мостных свойств параметрических лексем в основном использовались методы дистрибутивного анализа. Применялись также другие приемы ведения- лингвистических исследований, такие как опрос информантов. изучение статистических закономерностей употребления выбранного класса лексики' в конкретной предметной области, моделирование работы с картотекой на компьютере (работа в многооконном

текстовом редакторе). На этапе составления и реализации алгоритма поиска параметрической информации применялись методы автоматического синтаксического и семантического анализа текста и представления данных.

Научная новизна и теоретическое значение работы.

. При проведении диссертационного исследования получены следующие теоретические результаты:

- сформулирован сочетаемостный критерий отнесения существительного к классу имен параметров;

- определены группы лексем.- занимающих пограничное положение по отношению к классу ПИ;

- осуществлено разбиение ПИ на группы на основе таких признаков как тип словообразовательной модели, таксономические категории типовых измеряемых обьектов. способы выражения значения и др.;

- изучена актантная структура ПИ, указаны основные способы заполнения его валентностей, выделены имена, имеющие отклонения в актантной структуре;

- указаны важнейшие типы адъективных, глагольных и вопросительных контекстов ПИ;

- изучены некоторые способы выражения параметрической информации при .отсутствии ПИ в тексте;

- исследованы сочетаемостные свойства глаголов изменения количества, составляющих один из типовых контекстов ПИ;

- описаны языковые средства выражения параметрической информации в конкретной предметной области (химический канцерогенез);

- детализирован способ формализованного представления параметрической информации на основе трехкомпоиентной модели "параметр^1 - "объект" -"значение": предложено представление для ПИ с нестандартной актантной структурой и для вопросов о значении параметров;

- предложен алгоритм поиска параметрической информации в научно-техническом тексте:

- на основе алгоритма написана экспериментальная программа, анализирующая ПИ в объеме словника *"Словаря русского языка" Р.И.Ожегова.

Практическая ценность работа. К числу решенных практических задач можно отнести, в частности, произведенную индексацию ряда словарей по категориям "параметрическое имя" (для словника "Словаря русского языка" ,С.И. Ожегова); "имя неколичественного приз-

нака", "имя. сочетающееся с глаголом увеличиваться" (для словинка "Русско-французского учебного словаря" А.А.Зализняка), "количественное прилагательное" (для "Орфографического словаря русского языка" под ред. С.Г.Бархударова и др.).

Результаты, полученные при исследовании семантических и со-четаемостных свойств ПИ, могут использоваться при решении различных лексикографических задач, таких как составление словарей сочетаемости, изучение закономерностей деривации новых значений лексем и др. Методика проведенных исследований может быть распространена на анализ способов выражения других типов фактографической информации и, соответственно, на другие классы лексики, в частности, на имена неколичественных признаков.

Кроме того, результаты диссертационного 'исследования могут применяться при разработке лингвистического обеспечения современных информационных систем с интерфейсом на естественном языке.

Применение разработанного алгоритма поиска параметрической информации, опирающегося на синтаксическое представление предложения, позволит достичь высокого уровня точности поиска информации данного типа в информационных системах.

Апробация работы. Основные результаты исследований прошли апробацию на VI симпозиуме по лингвистическим проблемам искусственного интеллекта (Ленинград, 1990г.), на Всероссийском совещании разработчиков и пользователей систем гипермедиа и гипертекста (Москва. 1992г.) и на семинарах ВИНИТИ.

Структура работы. Диссертация состоит из введения, пяти глав, заключения, списка литературы и четырех приложений.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ.

В первой главе диссертации ("Параметрическое имя и его ак-тантная структура") описывается класс ПИ. определяется критерий отнесения произвольного имени существительного к данному классу., Выявляются неоднородности внутри данного класса, связанные с различными аспектами семантики ПИ. Очерчивается круг периферийных лексем. Кратко описываются свойства более общего семантического класса - класса имен признаков. Изучается актантная структура ПИ. Выделяется круг имен с нестандартной актантной структурой. Указываются таксономические категории актантов ПИ.

Принадлежность существительного к классу ПИ определяется в работе с помощью следующего формального сочетаемостного критерия. Существительное является параметрическим именем, если для него

I I Т

выполняются два условия: 1) оно может употребляться в качестве прямого дополнения при дополнительно распределенных глаголах получения и передачи информации - вычислить, определить, сообщить, уточнить, узнать (размер, температуру) и т.д.; 2) оно способно подчинять себе количественную именную группу с числительным и, быть может, названием единицы измерения.

Из первого условия вытекает, что класс имен параметров может рассматриваться как подкласс некоторой более широкой совокупности имен - имен признаков, отличительной чертой которых является способность иметь значение. Кроме имен параметров, т.е. количественных признаков, в эту совокупность входят имена неколичественных признаков, таких как адрес, название, профессия, диагноз. тема, цвет, траектория и т.д. С параметрическими именами эти лексемы прежде всего объединяет общность актантной структура, в которой выделяются две обязательные семантические валентности -валентность на характеризуемый по данному параметру (или признаку) объект и валентность на значение данного параметра (признака). Второе условие означает, что валентность ПИ на значение может насыщаться некоторым специальным образом, а именно, при помощи числовой величины, с факультативным.указанием единицы измерения этой величины.

Помимо имен параметров второму условию удовлетворяют имена некоторых предметов, явлений и действий, способные аппозитивно присоединять количественную группу при эллиптическом опущении ПИ. Это. в частности, имена денежных сумм различного назначения: штраф 1000 руб., прелаш Эва миллиона и т. д.; имена, обозначающие разрывы в течении различных процессов: отпуск на два дня. перерыв на пять тнут и т.д.; имена пространственных аномалий: пятно 10x6 см. трещина 5т и т.д. Такие предметные имена получили в работе название псевдопараметров.

В работе исследуется соотношение между семантическими и синтаксическими валентностями ПИ. Так. связь между именем параметра, названием объекта и числовой величиной со ссылкой на измерительную шкалу (единицу измерения) часто реализуется при помощи синтаксической конструкции, в которой группа, выражающая значение параметра, подчинена не ПИ, а предикату равенства: PARAM Х-а = Y W-ов, где PARAM - имя параметра, X - название объекта, - => - либо один из предикатов равенства - РАВЕН, СОСТАВЛЯЕТ, ДОСТИГАЕТ и т.д., Y - количественное числительное, a W - название единицы из-

нерения (которая, вообще говоря, может и отсутствовать). Пример: Высота дерева достигает 25 метров (здесь высота - РАИАМ, дерево -объект X, Оостиеаеп - предикат равенства - и 25 метров - количественная группа У и-ов),. Наряду с данной конструкцией употребляются конструкции с комплетивно-аппозитивной связью, в которых количественная группа подчинена ПИ: при длине бруска 5см: в диапазоне температур от -2 до +10 градусов и т.п.

В работе исследуется структура класса имен параметров в целом. Определяются признаки, на основании которых могут быть выделены различные группы имен внутри данного класса. В частности, отмечаются различия в способах деривации этих имен. Выделяется ряд более или менее регулярных и продуктивных словообразовательных моделей, по которым образованы ПИ.'

1. Один из регулярных механизмов порождения ПИ - субстантивация мотивирующего прилагательного: высота Х-а - это 'то. насколько X высок'. По этой модели образован ряд имен параметров: длина, скорость, плотность и др.

2. Имеется группа параметрических слов, образованных по другой, глагольной модели. Они выражают количественную меру результата некоторого действия: заработок Х-а - это 'то, сколько X зарабатывает'. Этой модели соответствуют также имена расход, потребление и др.

Глагольная модель может применяться и для толкования имен математических операций и функций, не имеющих общей лексической основы с мотивирующим глаголом: имена суша, квадрат, произведение и т.п. обозначают''то. сколько получится, если сложить, возвести во вторую степень, перемножить' и т.д.; ср. лексические функции в смысле А.К.Жолковского, И.А.Мельчука, позволяющие интерпретировать слово сумма как (сложить), и слово произведение - как Бгев (перемножишь).

3. Весьма существенное значение имеет образование ПЙ с помощью семантической деривации, которая создает регулярную многозначность типа "объект" - "количественная мера объекта", ср.: 'угол1 как фигура' и 'угол2 как величина этой фигуры'; 'радиус1 как отрезок в определенной конфигурации' и 'радиус2 как длина этого отрезка'; 'фон1 (радиационный) как явление' и 'фон2 как степень выраженности этого явления'; 'пушь1 как линия, по которой движется X' и 'путь2 как длина этой линии'.

4. Еще одна модель связана с участием в процессе словообра-

зования имен единиц измерения. Параметрическое слово является производным от названия соответствующей единицы : вольтаж, метраж и др. Параметр обозначает *то. сколькими определенными, фиксированными единицами измеряется данная величина'.

■ 5. Имя параметра может представлять собой составное слово, образованное в результате сращения отглагольного ПИ и имени, насыщающего объектную валентность мотивирующего глагола: энергопотребление. влагосодержание и т.п. Валентность на объект у составных ПИ могут заполнять другие актанты глагола: энергопотребление прибора (ср.: прибор потребляет энергию), влагосодержание в почве (ср.: почва содержит влагу).

Различия другого рода внутри класса имен параметров связаны с особенностями их актантной структуры. Так. среди имен данного класса выделяются имена, у которых либо первая, либо вторая валентность имеет внутреннюю подструктуру. К ним относятся имена двухобъектных параметров типа дистанция, периоЭ и др. (период между Х-ом и У-ом); имена параметров с интервальным значением -диапазон, пределы и др. (частоты в пределах от 100 до 1000 Гц); а также имена параметров,' значение которых представляет собой упорядоченную пару величин, например, шсшшб, пропорция (вещества смешали в пропорции 2:5).

У имен двухобъектных параметров валентность на объект обычно насыщается при помощи пары именных групп, образующих сочинительную или предложную конструкцию. Таковыми являются имена пространственных или временных промежутков, для которых указываются координаты начала и конца (расстояние от точки А до точки В, пауза' между вспышкой молнии и ударом, грот)', имена математических функций двух или более переменных (сумма чисел ж и у, максимум из чисел х, у и г): имена с семантикой разности (расхождение между теоретически/л и фактическим значениями функции). Иногда "двухобъ-ектность" маскируется под формой множественного числа: суша скоростей, расстояние между домсим (ср. известное понятие множественного актанта).

Для перечисленных 'имен члены объектной пары являются семантически равноценными и синтаксически однородными. Для ряда ПИ члены пары не являются равноценными и однородными, например, для имен с семантикой сравнения один из членов может служить своего рода фоном, ■ базисом сравнения., а характеризуется по параметру, главным образом, другой, более значимый член: отклонение значения

температуры от нормы; рост (падение) объема производства по срав-_ нению с тел« же периодом прошлого года. Менее значимый член пары (в данных примерах - норма и тот же период прошлого года) может управляться предлогами от, относительно, по сравнению с, по отношению к и нек.др. "

основой для одной из возможных классификаций ПИ могут служить также различия в таксономических категориях имен объектов, измеряемых по-тем или иным параметрам. Так. по параметрам высота, площадь и др. обычно измеряются ПРЕДМЕТЫ, по параметрам темп, ■скорость - ПРОЦЕССЫ, по параметрам вероятность, надежность характеризуются СОБЫТИЯ, по параметрам со значением времени длительность и продолжительность - измеряются объекты, относящиеся к категории СОСТОЯНИЙ, "удельными" параметрами теплопроводность, сопротивление и др. характеризуются, как правило. ВЕЩЕСТВА и МАТЕРИАЛЫ. а в роли объектов для параметров диапазон, приращение и др. выступают ЧИСЛОВЫЕ ВЕЛИЧИНЫ.

На поверхностном уровне валентность ПИ на объект может- заполнять и имя, принадлежащее к.какой-либо другой таксономической категории, но на уровне толкования словосочетаний вида PARAM + ObJ, где ObJ - имя объекта, эксплицируется категория, являющаяся как бы собственной для данного параметра: скорость автомобиля = 'скорость движение автомобиля'(т.е. некоторого ПРОЦЕССА): длина пробега (электрона) - 'длина отрезка, который проходит электрон', т.е. ПРЕДМЕТА; возраст вступления в брак - 'возраст людей, когда они обычно вступают в брак' и т.п.

В ряде контекстов имя параметра имеет редуцированную диатезу в смысле Е. В. Падучевой. когда либо первая, либо вторая из его семантических валентностей не имеют соответствующих синтаксических валентностей. Например, в предложении Шар имеет объем 3,5 куб.м. у имени объем нет синтаксической валентности на объект (ср. с конструкцией Объем шара, равен 3.5 куб.м.. в которой эта "валентность есть и насыщена),1 а в предложении Определите объем шара не может быть заполнена валентность на значение (нельзя сказать: *Определите объем шара 3,5 куб.м.). в предложении Объем шара зависит от его радиуса не может быть указано значение ни у параметра объем, ни у параметра радиус. Запрет на заполнение валентностей в данных примерах имеет разную природу. В первом случае- семантическая валентность сохраняется; имя объекта (шар) присутствует в предложении, но оно насыщает синтаксическую валентное«

ю

другой лексемы (валентность субъекта у предиката шлеть). Во втором случае семантическая валентность ПИ как бы связана оператором вопроса: значение параметра служит предметом запроса и поэтому не может одновременно быть известным. В третьем случае имена обоих параметров употребляются как названия функций. ■ и конкретное значение у них не может быть задано, ср.: *0бьем шара зависит от его радиуса и равен 3.5 куб. и.

Вторая глава ("Контекстное окружение параметрических имен и средства замещения их в тексте") в основном посвящена изучению синтагматических свойств ПИ. Приводятся важнейшие типы адъективных, вопросительных и глагольных контекстов ПИ. Рассматриваются некоторые синтаксические конструкции с ПИ и языковые средства замещения имен параметров в тексте - параметрические глаголы и составные количественные прилагательные типа беухлштровый.

Среди прилагательных, образующих определительные словосочетания с ПИ, выделены два основных типа. Основанием для деления служит способность или неспособность прилагательного заполнять валентность значения у ПИ. ср.: номинальная масса (прилагательное номинальный не заполняет данной валентности и образует вместе с именем масса название сложного параметра) и большая тсса (прилагательное большой выражает неточное количественное значение параметра тсса).

К первому типу обнесены невалентные прилагательные (не способные насыщать валентность значения у ПИ). Формальным критерием принадлежности прилагательного к данному типу может служить возможность употребления определительного сочетания А<3 ^ + РАЯАИ в диагностическом контексте свернутого косвенного вопроса: ср. определить номинальную массу и »определить большую массу.

Невалентные прилагательные отличаются большим разнообразием.-Этот класс постоянно пополняется за счет образования новых прилагательных, отражающих многообразие свойств параметров и объектов, изучаемых в разных предметных областях. Имя параметра по своей семантике относительно универсально, а разного рода прилагательные могут обеспечивать его привязку к конкретной области, ср.: электродвижущая сила, выталкивающая сила, гидростатическая сила и т.п.

Помимо привязки к 'предметным областям, прилагательные первого типа могут выполнять и другие роли- они уточняют обстоятельства, при которых измеряется объект (утренняя температура). указывают на связь с другими параметрами (частотный биапазон), описы-

! I !

- п

вают операции, произведенные над числовой величиной (среднеквадратичная ошибка), определяют степень точности и меру истинности значения {ср.: приближенное и точное, теоретческое и фактическое значения) и др. „

Для -невалентных прилагательных можно выделить нежесткие ограничения на сферу действия лексического значения (в смысле И.М.Богуславского); в сферу действия такого прилагательного попадает либо собственно лексическое значение ПИ. т.е. то, что связано с содержательным определением параметра, например, термодинамическая температура (прилагательное обозначает физическое явление и относится к названию параметра), либо числозое значение параметра, ср.: истинная температура.

Ко второму типу относятся валентные прилагательные (способные выражать значение параметров). Валентные прилагательные относительно немногочисленны. Прежде всего, к их числу относятся прилагательные со значением количества большой, малый, высокий, низкий, быстрый, медленный и т.д. Исследуются ограничения на их сочетаемость с именами параметров. Даже наиболее общеупотребительные прилагательные большой и маг.ый имеют сочетаемостные ограничения: как правило, они не используются для выражения значений таких параметров, которые обозначают предельные .величины (максимум, предел и др.). У прилагательного высокий выделяются два значения: высокий1 (= имеющий большую высоту) и высокий2 (= имеющий большое значение некоторого параметра, отличного от параметра высот). Второе из значений связано с известной метафорой '"больше"- ориентир вверх, "меньше" - вниз'. Высокий2 употребляется, в частности, с именами параметров скоростного ряда (быстродействие, частота), стоимостных характеристик (цена, зарплат), но не употребляется, например, с именами весов: .х и емкостных величин (масса, емкость, тонная и др.).

К этому же типу принадлежат .относительные количебтвенные прилагательные типа небольшой, огромный, нулевой (в значении "равный нулю") и т.п.. а также кванторные прилагательные произвольный, всевозможный, местоименные кванторные прилагательные некоторый, любой. В некоторых случаях значения параметров могут выражаться при помощи прилагательных, характеризующих свойства чисел и числовых множеств бесконечный, четный, вещественный и др.

Отдельно в работе рассматриваются составные прилагательные типа двухметровый, представляющие собой "склейку" числительного и

имени единицы измерения. Как правило, эти прилагательные употребляются с именами измеряемых по ' различным параметрам объектов' (двухметровый забор) и выражают параметрическую информацию при отсутствии ПИ в тексте. Они могут употребляться и с ограниченным кругом ПИ, ср.: двухметровый рост, пятилетний возраст, но *3еух-'. литровый объем. Словообразовательная модель регулярна и продук-' тивна. Необходимым условием образования таких прилагательных является морфологическая простота единицы измерения - она должнэ' выражаться одним словом. Прилагательные образуются от числительных. обозначающих относительно небольшие или "круглые" числа (пятиграммовый, тысячелетний), или от цепочек числительных, состоящих не более чем из трех членов (двадцатидвухградусный. двухсот-пятидесятметний). В некоторых случаях происходит округление числового значения параметра, например, гибкий магнитный диск диаметром 5,25 дюйма обычно называют пятидюймовым.

Вопросительные контексты ПИ рассматриваются в связи с изучением способов построения вопросов о значении параметров. Анализ таких вопросов важен в практическом отношении, поскольку значение того или иного параметра часто является предметом пользовательских запросов при общении с информационными системами.

Вопрос о значении параметра может строиться как с участием, так и при отсутствии ПИ. Имена параметров образуют вопросительные конструкции вида Каков (какой, чему равен) РАКАМ?; Как (насколько) велик РАНАМ?.

При отсутствии имени параметра" в тексте вопроса возникает проблема его экспликации. Параметрическую "нагрузку" могут брать на себя предикат: Сколько Вам платят? (неизвестный параметр -зарплат); параметрическое наречие: Как быстро движется тело? (требуется определить скорость); имя единицы измерения: Сколько тнт Вы меня ждете? (неизвестна продолжительность).

В числе глаголов, замещающих ПИ В, тексте, кроме традиционно рассматриваемых параметрических глаголов весить, стоить, длиться, вмещать, можно выделить целый ряд других глаголов, имеющих валентность на количестве}. К ним относятся глаголы заплатить, оштрафовать и т.д., обозначающие операции с денежными суммами и имеющие валентность на размер суммы; некоторые глаголы совершенного вида на про-, такие как проплакать, прождать и др., обозначающие действия или состояния и имеющие валентность на величину интервала времени, в течение которого производится действие или сохраня-

ется состояние: глаголы, требующие указания величины пространственного интервала простираться, протягиваться (на 10 км) и т.п.; глаголы с валентностью на значение параметра температура, такие как нагреваться, остывать (до 10 градусов) и т.д.

К параметрическим глаголам относятся также глаголы изменения количества увеличиваться, повышаться, снижаться, расти и т.д., ср.: увеличиваться в 2 раза (на 5%. с 2 до 5 см.), которые выражают информацию о параметрах типа рост, прирост или о периферийных параметрах увеличение, снижение и т.д. Эти глаголы могут употребляться как с именами параметров, так и с именами "увеличивающихся" или "уменьшающихся" объектов.

В третьей главе ("Параметрические компоненты в семантической структуре имен") решается лексикографическая задача экспликации параметрического компонента, содержащегося в семантике различных групп имен существительных. Задача возникла при изучении сочетае-мостных свойств глаголов изменения количества, которые составляют один из типовых глагольных контекстов ПИ.

Наиболее широкой сочетаемостью среди глаголов изменения количества обладает глагол увеличиваться. Он не принадлежит к числу диагностических контекстов ПИ. поскольку в позиции его синтаксического субъекта могут употребляться не только имена параметров, но и имена предметов (пятно, отверстие), ощущений (сомнение, страх), явлений и процессов (зависимость, воздействие) и некоторых других классов. Сочетаемость некоторого имени с глаголом изменения количества обусловлена наличием параметрического компонента в семантической структуре этого имени. Такие компоненты эксплицируются в работе, для разных групп имен.

Имена существительные, способные выступать в роли синтаксического субъекта при предикате увеличиваться, можно условно разделить на три категорий, в зависимости от "глубины залегания" в слове искомого параметрического компонента и от возможности измерения его числовой величиной. К первой категории относятся ПИ, т.е. те имена, у которых этот компонент задан явно и измеряется числовыми величинами. У имен, отнесенных ко второй категории, этот компонент явно не задан, но является измеримым. В эту категорию попадают преимущественно предметные имена, в том числе имени некоторых природных объектов, артефактов, множеств. Третью ка-тегорг э составляют имена, у которых параметрический компонент не уздан явно и не является измеримым. Это, главным образом, имена

| ! :

явлений и ощущений, для которых обычно не практикуется или в принципе невозможно измерение.

В рамках каждой из категорий выделяется несколько однородных в семантическом отношении групп имен, которые имеют одинаковые "увеличивающиеся" компоненты. Одним из показателей семантической однородности для каждой отдельной группы может служить сочетаемость лексем этой группы с тем или иным синонимом глагола увеличиваться, имеющим определенный оттенок лексического значения (возрастать. укрупняться,, усиливаться и т.д.) и несочетаемость с этим синонимом лексем других групп, ср. скорость возрастает и »пятно возрастает.

Так, среди предметных имен, относящихся ко второй категории, естественные сочетания с глаголом увеличиваться образуют имена растущих, самопроизвольно увеличивающихся природных объектов (туча, овраз, печень) или имена артефактов, размеры которых относительно легко изменить (плантация, участок). Искомым параметрическим компонентом является тот или иной геометрический размер; характерные синонимы глагола увеличиваться - глаголы удлиняться, расширяться, углубляться, вырастать и т.д.. имеющие дополнительное распределение.

Ко второй категорий, кроме того, относятся

- собирательные имена: семья, стадо, коллектив и т.д. (искомый параметр - мощность множества, т.е. количество его элементов, характерный синоним глагола увеличиваться - расти);

- имена артефактов - названия населенных пунктов или учреждений: село, монастырь, фабрика, тюрьма, хозяйство и т.д. (параметрические компоненты - размер занимаемой данным объектом территории и количество связанных с ним людей - жителей, клиентов, персонала, Буп [увеличиваться] = укрупняться, вырастать);

- имена модальных оценок угроза, шанс, безопасность и др., для которых искомым параметрическим компонентом является вероятность, Буя [увеличиваться] - повышаться, возрастать, расти.

а также некоторые другие группы имен.

Примерами имен, относящихся к третьей категории, являются имена чувств, эмоциональных и ментальных состояний жалость, интерес. подозрение и т.д. (синонимы глагола увеличиваться - возрастать, усиливаться); имена физических ощущений боль,' неЗолювание, привкус и т.д.; имена явлений, фиксируемых внешним наблюдателем сквозняк, духота и т.д., имена звуковых раздражителей звон, шорот.

I

и т.д. (характерный синоним глагола увеличиваться - усиливаться). Искомым параметрическим компонентом для этих лексем является интенсивность субъективного ощущения данных состояний или интенсивность их внешнего проявления.

В четвертой главе :("Автоматический поиск параметрической информации") приводится алгоритм поиска по тексту информации о параметрах. разработанный на базе проведенных семантических исследований, и кратко описывается его программная реализация.

На вход алгоритма поступает предложение исходного текста, в котором определены морфологические признаки каждой' словоформы и между словоформами установлены размеченные синтаксические связи. Целью работы алгоритма является поиск информации о каждом из со- ! держащихся в тексте параметров и преобразование этой информации к следующему структурированному представлению.

Информация, связанная с параметром, представляется с помощью предиката PAR (NOM. OBJ, VAL), имеющего три аргумента: NOM - название параметра, 0BJ - название измеряемого объекта и VAL -значение параметра. Аргументы 0BJ и VAL имеют внутреннюю подструктуру. 0BJ состоит из двух полей (позиций) - objl и obJ2. Это обусловлено необходимостью обработки как обычных, однообъектных. так и двухобъектных параметров (при обработке однообъектных параметров второе поле остается незаполненным). VAL структурирован с учетом того, что значение параметра может быть задано в виде числового неравенства. Он состоит из следующих полей: type - поле, где указывается тип задания значения (точное или приближенное равенство, неравенство снизу или сверху, двойное неравенство, словесное описание): vail - поле, в которое записывается значение параметра, если значение задано в виде равенства, или нижний предел значения параметра, если имеет место неравенство снизу; unltl - позиция;для записи единицы измерения нижнего предела; val2 - поле, куда заносится верхний предел значения параметра (в случае неравенства сверху); unlt2 - позиция для единицы измерения верхнего предела.

Суть алгоритма состоит в том, что по каждому вхождению параметрического имени в анализируемый текст формируется предикат PAR ; и поэтапно (в три этапа) заполняются его аргументы. По окончании автоматического просмотра текста образуется совокупность таких пред-..катов,- которая затем может быть занесена в фактографическую

базу данных. При этом,, если для некоторого предиката обнаружива-

: 1

ется, что по аргументу VAL ни одна из двух позиций vail или val2 не заполнена, то это означает, что значение параметра не установлено, и такой предикат не запоминается системой.

На первом этапе устанавливается полное название параметра. Поиск названия предполагает извлечение из текста параметрического существительного и анализ синтакоически зависимых от него слов. Предполагается, что в именную группу, образующую название параметра (ИГпар). могут войти согласованное прилагательное и группа, атрибутивно подчиненная имени параметра. Прилагательное будет отнесено к названию параметра лишь в том случае, если оно не способно насыщать валентность значения данного ПИ (что устанавливается при помощи специального словаря). Если зависимым словом является существительное, то возникает проблема, относить ли его к названию параметра или к названию объекта. К названию параметра относятся существительные, атрибутивно подчиненные тем параметрическим лексемам, которые часто образуют параметрические словосочетания (коэффициент, норма, сила, число и нек. др.; примерами словосочетаний являются коэффициент преломления, сила тяжести, число благоприятных исходов и т. п.). К названиям параметров также будут отнесены устойчивые сочетания с другими ПИ (радиус кривизны. производительность труда и т.д.), задаваемые словарным способом.

На втором этапе происходит поиск названия измеряемого объекта. Именная группа, содержащая полнозначное слово, классифицируется как имя объекта (ИГо9) и заполняет аргумент 0BJ предиката PAR, если она связана с ИГ определенным синтаксическим или лексико-синтаксическим отношением. Примерами таких отношений для однообъектных параметров являются:

(атриб) •

ИГ _„-------> ИГ . '(толщина стенки);

пер 0 0 • ■'

(атриб) - (предл) ''

игпар-------> РгеРюс -------> I{roB- где РгеРюо - предлог.

с локативным значением (радиационный фон вблизи станции): (атриб) (предл)

ИГоб------> при -—*----> ИГпар (испытание при токе 20А) и др.

Для двухобьектных параметров производится поиск двух именных

групп, ИГ и ИГо62. Примеры лексико-синтаксических отношений: (1-компл)

I (квазиагент) V предл

ИГ-.»------------> ИГ относительно-----> ИГ „„

пар о б 1 о 6 2

(сдвиг фазы колебания относительно несущей); (атриб) (сочин)

ИГ л-----> ИГ ------> и ИГ ло (сумма толщины стенки и

пар об1 обе ^

том(ины прокладки).

На третьем этапе осуществляется поиск значения параметра. Для каждой ИГяар сначала ищется числовое значение, выраженное при помощи количественной именной группы в составе количественного числительного (в цифровой или словесной форме) и именной группы с семантикой единицы измерения. Поиск ведется по специальным правилам вначале справа, а затем, при необходимости, слева от ПИ. Найденное значение и единица измерения заносятся в соответствующие позиции аргумента VAL предиката PAR. Если значение, выраженное числом, не обнаружено, то производится поиск определительной конструкции с прилагательным; выражающим или заменяющим числовое значение (высоковольтный, постоянный и т. д.).

В процессе поиска идентифицируются конструкции, связывающие ИГпар и количественную группу. Анализируется тип задания значения (точное равенство, неравенство и т.д.). Характерные средства выражения точного равенства: предикаты равен, составляет, держится на. и др.; приближенного равенства: частицы около, почти, порядка и др., предикаты колеблется около, сосредоточен возле и др.; неравенства снизу: предикаты более, вше. свыше, превышает и др., конструкции типа от N и вше: неравенства сверху: предикаты не более, ниже, не превосходит и др.

На данном этапе обрабатываются также фрагменты текста, содержащие словесные описания значений параметров, в частности, •конструкции, обозначающие функциональную зависимость значения одного параметра от значений других. Зависимость может быть выражена одыш из предикатов равенства, неравенства или других типов соответствия (зависши, крашый. обратный, противоположный, сравнимый и др.). При обнаружении такого предиката он заносится в позицию vail вместе с именными группами, насыщающими его вторую и, нооб:.,-з говоря, третью валентность. Так, при обработке предложения Диаметр отверстия носителя больше диаметра приводного вала на уд-

1 I

военную толтни сттииы в позицию vail войдет весь подчеркнутый отрезок текста. В позицию type при этом. запишется признак' text.

Большинство блоков алгоритма поиска параметрической информации реализованы в виде экспериментальной программы, позволяющей выделять из текста и представлять в структурированном виде информацию о параметрах, выраженных при помощи ПИ из словника "Словаря русского языка" С.И.Ожегова. Программа построена на базе системы автоматического синтаксического анализа, разработанной научным коллективом под руководством Г.Д. Фролова при участии автора.

Пятая глава ("Параметрическая лексика в текстах по химическому канцерогенезу") посвящена описанию способов выражения параметрической информации в конкретной предметной области. Рассматриваются лексические и структурные свойства текстов по химическому канцерогенезу, содержащих информацию данного типа. Анализируемый корпус текстов составляют оригинальные и обзорные статьи из журнала "Экспериментальная онкология" за 1992г., в которых описываются опыты по воздействию на животных веществ с предполагаемыми канцерогенными свойствами.

В главе обсуждаются перспективы разработки средств для автоматического пополнения,базы данных, являющейся частью создаваемой в ВИНИТИ экспертной системы по химическому канцерогенезу. База данных содержит информацию о таких параметрах, как дозы вещества, вызывающие канцерогенный эффект, продолжительность воздействия канцерогена на подопытное животное, возраст животного, количество введений препарата, частота возникновения опухолей, латентный период п др'. Изучаются конкретные способы выражения значений этих параметров, встретившиеся в выбранном корпусе текстов.

Так. значение параметра частота в данной предметной области, когда имеется в виду частота возникновения опухолей, может выражаться числительным со знаком процента (80%, 20-25%). примыкающим к имени параметра или связанным с ним .при помощи предиката равенства или неравенства. • Информация о данном параметре может выражаться и при отсутствии ПИ: в опытной группе пало 27% мышей; у 84% животныя: обнаружили разного рода опухоли-к т.п. При отсутствии и ПИ, и числительного со знаком процента информация может выражаться с помощью конструкции N Х-ов из И Y-oe. где ц и И -числительные, а X и Y - лексемы, обозначающие животных или эксперименты на них. В этой конструкции часто встречается эллипсис, и либо X, либо У в ней опускается: 3 кролика из 4 погибли от злока-

чествеюш новообразований; . крысы опытной гриппы заболевали в среднем в 8 случаях из 10. В данной области параметру частота синонимичны параметры уаельнШ вес и количество, если в роли объекта у последних выступают имена опухолей или заболевших животных: удельный вес генотоксикантов составил 93%; отмечено большое количество новообразований (10-40%).

При заполнении базы данных требуется определить и значение некоторых неколичественных признаков: название химического соединения, наличие у него канцерогенных свойств, вид и пол животного, способ введения препарата, локализаиия опухоли:

Возможные способы выражения значений этих признаков также описываются в данной главе. Например, значение признака локализация опухоли может выражаться при помощи именных групп, обозначающих части тела, органы, группы органов и системы организма (щитовидная железа, ' полость рта, кроветворная система и т.д.), которые при машинной обработке должны задаваться словарным способом. Как правило, имй пораженного органа имеет форму родительного падежа (опухоль мозга), встречаются также и предложные группы (на голове, в сердце). Информация о локализации новообразований может выражаться наречием или наречным сочетанием (местно. на месте введения препарата), родовым именем или именем признака (разные органы, различные локализации). Место возникновения может быть зашифровано в названии опухоли (гепатоаденома->печень).

Одним из важнейших типов информации с точки зрения интересов потенциального пользователя базы данных является информация о наличии у исследуемого вещества канцерогенных свойств. В работе подробно рассматриваются средства выражения значения этого бинарного признака.

В приложении 1 содержится перечень русских параметрических существительных, составленный на основе словников "Словаря русского языка" С.И. Ожегойа (М.: Рус. яз.. 1987) и "Англо-русского словаря по метрологии и технике точных измерений" (авторы Б.И.Игнатьев и М.Ф.Юдин, Й.: Рус.яз., 1981).

В приложении 2 приводится список русских прилагательных, способных насыщать валентность значения у ПИ. Список составлен на основе "орфографического словаря русского языка" под ред. С.Г. Бархударова и др.(М.: Сов. энциклопедия,1969).

приложении 3 в табличной Форме даны правила поиска по тексту информации о значении параметров и правила приведения этой информации к структурированному представлению. ,

■Приложение 4 содержит текст основного модуля экспериментальной программы, осуществляющей поиск параметрической информации. Программа написана на алгоритмическом языке "Си".

На основании проведенных исследований можно сделать следую-

1. Принадлежность .имени существительного к классу ПИ диагностируется по совокупности двух условий: 1) по возможности употребления данного имени в контексте глаголов получения и передачи информации вычислишь, узнать, определить (в значении "узнать" или "вычислить"), сообщить (в значении "передать информацию") и т.п.; 2) по его способности подчинять количественную именную группу, выражающую значение параметра и состоящую из числительного и факультативного названия единицы измерения. По этим двум условиям к данному классу относятся как собственно имена физических и экономических параметров, так и имена абстрактных математических величин (коэффициент, модуль, сумма и т.д.),

2. Среди существительных других семантических классов наиболее близкими к именам параметров являются:

а) имена неколичественных признаков (адрес, должность, имя, смысл, причина, цвет и т. д.). употребляющиеся в контексте глаголов получения и передачи информации (кроме глагола вычислить. объектом для которого может быть только числовая величина), но не имеющие количественного значения;

б) некоторые имена предметов и явлений, не употребляющиеся в диагностических контекстах, но способные присоединять к сейо количественные группы, выражающие значения определенных параметров (перерыв на пять-минут:' гонорар два миллиона и т.д.).

3. Имя параметра обладает актантной структурой, включающей две семантические валентности - валентность на имя характеризуемого по данному параметру объекта и валентность на количественное значение параметра. Насыщение первой из. них обычно создает конкретно-референтную привязку имени параметра. Наличие второй придает ему элемент вопросительности, чем обуславливается возможность употребления такого имени в контексте свернутого косвенного вопроса (определить длину - определить, какова длина). Ралентности семантически и синтаксически неравноценны; в частности, насыщающие их группы чаще всего относятся к разным частям высказывания при его коммуникативном членении: имя объекта тяготеет ч теме, а

числовое значение - к реме высказывания. '

>

4. Ряд ПИ отличается более сложной актантной структурой за счет того, что и первая, и вторая валентности могут, в свою очередь, иметь внутреннюю подструктуру. В частности, выделяются дву-хобъектные параметру типа угол, расстояние и др.; ср.: угол между Х-ом и У-ом. расстояние от Х-а до У-а: параметры с интервальным значением - диапазон, полоса и др., ср.: частоты в диапазоне от 50 до 500 Гц; параметры, значение которых представляет собой упорядоченную пару величин, например, масштаб увеличения 1:100.

5. Прилагательные, образующие определительные сочетания с именем параметра, могут быть разделены на две группы в зависимости от того, способны ли они насыщать его валентность значения. К т. наз. валентным прилагательным относятся прилагательные, насы-, щающие указанную валентность. Это прилагательные точной и неточной количественной оценки, кванторные прилагательные и некоторые прилагательные, характеризующие свойства числовых множеств, например, низкий (темп), произвольный (коэффициент). К другой группе относятся невалентные прилагательные, которые не способны выражать значения параметров. Они описывают способ и обстоятельства измерения параметра, характеризуют физическое явление, определяют принципы выбора того йли иного значения параметра и др., например, молярный (объем), ежегодный-(прирост) я т.д.

(б. Семантика имени параметра связана с семантикой лексем, способных насыщать его объектную валентность. Различия в таксономических категориях этих лексем могут быть положены в основу одной из возможных классификаций ПИ. Так, можно выделить параметры, для которых типовыми измеряемыми обьектами являются: ПРЕДМЕТЫ (длина, возраст и др.), ПРОЦЕССЫ (темп, скорость и др.), СОБЫТИЯ (вероятность, надежность и др.). СОСТОЯНИЯ (Злителькость, продолжительность и др.), ВЕЩЕСТВА и МАТЕРИАЛЫ (плотность, сопротивле- , ние и др.). На поверхностном уровне объектную валентность у ПИ может насыщать и имя. относящееся к "чужой" таксономической категории, но нп уровне толкования выявляется категория "собственная": скорость автомобиля» 'скорость движения автомобиля'(т.е. некоторого ПРОЦЕССА); набетссть двигателя » 'вероятность того, что двигатель не выйдет из строя' (т.е. вероятность некоторого СОБЫТИЯ). .

7. Отдельную проблему составляет анализ вопросов о значении пярп».' гров. Актуальность этой проблемы обусловлена тем, что зна-

чение того или иного параметра является одним из главных предметов пользовательских запросов к информационной системе, снабженной интерфейсом на естесвеннои языке. Вопрос о значении параметра может формулироваться как с использованием ПИ, так и при помощи других лексических средств (параметрических глаголов, наречий, а также названий единиц измерения).

8. одним из типовых глагольных контекстов ПИ является кон- ' текст глаголов изменения количества увеличиваться, убывать, расти и т.д. Среди этих глаголов наиболее широкой сочетаемостью обладает глагол увеличиваться. Его синтаксическими субъектами могут быть как имена' параметров, так и имена других семантических клас-

| сов. Сочетаемость имени с глаголом уееличиваться.обусловлена наличием параметрического компонента в семантической структуре этого имени. В качестве параметрического компонента может выступать: геометрический размер (для ряда предметных имен), количество элементов множества (для ¿обирательных имен), интенсивность (для имен действий и процессов), вероятность (для имен типа угроза) и др.

9. Предложенный В работе алгоритм поиска параметрической информации позволяет извлекать информацию о параметрах из научно-технического текста и представлять ее в структурированном виде в базе данных или текстовом файле. Алгоритм включает три основные этапа, на которых производится поиск, соответственно, имени параметра, имени измеряемого объекта и числового значения параметра. Алгоритм нацелен на обработку наиболее типовых конструкций с параметрическими именами, а также конструкций с параметрическими прилагательными.

10. Традиционная триада "объект"-"признак"-"значение" является удобным средством представления параметрической информации в информационных системах, поскольку такое представление соответствует актантной структуре ПИ в ее простейшем варианте. Однако для ПИ с нестандартной актантной структурой эта модель данных нуждается в некоторой детализации. В'-частности, должна быть предусмотрена возможность дополнительного.структурирования позиции объекта для представления информации о двухобъектных параметрах и позиции, отведенной под запись количественного значения.

11. Описанный в работе алгоритм, отражающий наиболее общие свойства параметрической лексики, может применяться в различных предметных областях.. Настройка алгоритма на поиск в конкретной

области может включать незначительную,. корректировку словаош... правил анализа исходного текста, в частности, учет синонимии ПИ. свойственной лишь данной области: анализ синтаксических конструкций, дополнительных по сравнению с общим описанием; обработку характерных аббревиатур и т.п.

По теме диссертации опубликованы следующие работы.

1. Алгоритм извлечения информации о параметрах из текстов рефератов и первичных документов // НТИ, сер. 2. - 1991.- N 6, -С. 22-32. Пер. на англ. яз.: Algorithm extracting information on parameters from texts of abstracts and primary documents // Automatic documentation and mathematical linguistics. Vol. 25. N3, 1991. - P. 50-65. - 1,4 П.Л.

2. Система автоматического синтаксического анализа АССАРП // Всероссийское совещание разработчиков и пользователей систем гипермедиа, и гипертекста. ', Тезисы выступлений. - М.. 1992. - С. 32-33 (в соавторстве), - 0,1 п.л.

3. О семантической структуре субъекта у глаголов монотонного изменения. Что может увеличиваться? // НТИ. сер. 2. - 1993. - N6. - С. 23-28. Пер. на англ. яз.: Semantic structure of the subject of the verbs of monbtonous change: what can increase? //'Automatic documentation and mathematical linguistics. Vol. 27. N3,

1993. - P. 55-62. - 1.2 П.Л.

4. Параметрическая лексика в текстах по химическому канцерогенезу. //,НТИ. сер. 2. - 1994. - N4. - С. 18-25. - 1.3 п. л.

5. Модели вопросов о значениях параметров. // НТИ, сер.2.-

1994. - N7. - С. 23-29. - 1.1 П.л.

о в печать 23.11.94. ШИОН РАН Зак.204 ïap.IOO.