автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Математические модели межморфемных отношений и их использование при автоматической обработке русских текстов
Автореферат диссертации по теме "Математические модели межморфемных отношений и их использование при автоматической обработке русских текстов"
ХАРЬКОВСКИЙ ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ ИНСТИТУТ РАДИОЭЛЕКТРОНИКИ имени АКАДЕМИКА М. К. ЯНГЕЛЯ
На правах рукописи
БУЛКИН ВИТАЛИЙ ИВАНОВИЧ
МАТЕМАТИЧЕСКИЕ МОДЕЛИ МЕЖМОРФЕМНЫХ ОТНОШЕНИЙ И ИХ ИСПОЛЬЗОВАНИЕ ПРИ АВТОМАТИЧЕСКОЙ ОБРАБОТКЕ РУССКИХ ТЕКСТОВ
05.25.05 — Информационные системы и процессы
Автореферат диссертации на соискание ученой степени кандидата технических наук
Харьков—19 93
Работа выполнена на кафедре программного обеспечения ЭВМ Харьковского ордена Трудового Красного Знамени института радиоэлектроники имени академика М. К. Янгеля.
Научный руководитель — кандидат технических наук,
старший научный сотрудник Н. В. Шаронова.
Научный консультант — доктор технических наук,
профессор М. Ф. Бондаренко.
Официальные оппоненты:
— доктор технических наук, профессор И. В. Совпель;
— кандидат технических наук, старший научный сотрудник В. П. Кириллов.
Ведущая организация — Харьковский институт проблем
машиностроения АН Украины
Защита состоится „_____"____________ 1993 г.
в_ часов на заседании специализированного совета
К.068.37.01 при Харьковском ордена Трудового Красного Знамени институте радиоэлектроники имени академика М. К. Янгеля по адресу: 31014), г. Харьков, проспект Ленина, 14.
С диссертацией можно ознакомиться Харьковского института радиоэлектроники.
в библиотеке
Автореферат разослан я_
1993 г.
Ученый секретарь специализированного совета кандидат технических наук, профессор
Э. А. ДЕДИКОВ
ОБЩАЯ ХАРАКТЕРИСТИКА. РАБОТЫ
Актуальность работа. Разшегаэ вычислительной тезшшси па путл улучиепня технологической басы и архитектура, увеличения ироизводшгальпоста и надежности, укеиыпошя разборов ЭВМ практически исчерпало своя возмозноста. Кроме того, появлэнпэ и шфокос распространенно персональша кокоьвтероз поставило на г^вестку для реиепие задачи, которая ззшзтаетси в том, чтобы сделать общепио с кошьюгерами для непрограглязрущого пользователя столь неа;ошшм, чтобя научиться этому 1«ог каадий человек с изникзлыши! усилия?,а. Сделать это юшо,лишь обосшчяв общение массового пользователя с компьютером па уровне обнчног-о естественного язнка. Кроме того, необходимо, чтоби по словесной формулировке задачи, интерэсущой пользователя, кокоызтор мог самостоятельно сконструировать нуотув программ к репшть задачу.
Тл:аэ! образом, па пута широкого распространения Бччпслктельта: мапшн стоит пройлека создания интеллектуального шторфеЁса, обо оно чотз а ще го для лодеЗ максимально юкз^ортше условия общения с кошьзтором. Пря создать ннтоллэктуалького шггорфоЗса пеобходшо '-эиить рад задач. Среди них еоэданЕэ диалоговой снстопо! общения па ограниченной естественном пзыхэ, создание систо!5Ы автоматического синтеза програкл из библиотека стандартных модулей, создание базы знаний, в которой хронатся вся необходимая для работы штеллгктуалыгого интерфейса информация. Создание шггаллооту.чльного кчтор£оЗса мещду конэчннм пользователем а ЗШ приобретает все более актуальное зяачешю. Очевидно, что эту задачу нэтзшано рэшггь без форк^-шюацш! естественного языка. Однако дал того, чтобы формализовать сеиянтгку текста, езо6_~одз"о
"научить" систему понимать смысл отдельно взятого слова.
Целью_работы является разработка и реализация на ЭШ математических моделей кегшрфемаых отношений производных словоформ и применение их в лингвистической подсистеме интеллектуального вс-тэствензо-язцкового интерфейса.
провести анализ сущестаржрхх кртодов формаллзацж естественного языка;
разработать «етодаку формального описания внутриморфемашс мвябуквоншх связей для всех морфем производного слова;
разработать метод математического описания меаморфемных отношений синтактика лпя префиксальных и суффиксальных цепочек, загруяешнх в регистра префиксального и суффиксального поля.;
разработать принципы математического моделирования меамор-фзкных семантических связей с целью описания смысла щюнзводдого слова;
реализовать на ЭЗУ разработанные модели и выработать рекомендаций по их применению.
Научная коз'лзиз работы;
рязработина методика математического ■ описания шутриморфешьк связей дня всех ко{4©м производного слова;
осуществлена схемная реализация предикатных уравнений, описывающих яга связи;
разработана математические ыодэли шзшрфекаых отношений синтактака и произведена их схемная реализация;
разработан метод описания мезтэрфемаа семантических
связей;
полутени математические модели семантики производного
слова с учетом явления смониши и полисемия морфем; получепнке модели роализозагш па ЭВМ.
Прзктачзская пестреть работе состоит в том, что разработанные математические модели вяутрадарфеуяшх отношений контактнки ,в также кежморфеших отношений сштйктшси и их схемная реализация могут Суть использованы при создания отдельных блоков лингвистического процессора, выполняющего функции тег: структур человеческого ытеллектя, которые участвует в реализации соответствующих сторон языковой деятельности человека.
Математические модели ме^яюрфзгжвнх семантических отношений могут быть использованы при создании лингвистической подсистема интеллектуального остествешзо-пгкссвого интерфейса. Разработанные в диссертационной работе математические вдели дают возможность решать широкий круг задач, связанных с машинной обработкой текстовой информации, в том число - анализ и синтез текстов.
Реалвзацяя эзЭ!-матовработы. Диссертационная работа выполнена в соответствии с планом научно-исследовательских работ: госбвджетпые темы N 80051472 "Разработка теории программно-внчислительных средств и лингвистического обеспечения вычислительной техники новых поколений", N 11021362 " Разработка теория интеллекта и создание на ее основе щипраммно-твхнического обеспечения ЭВМ новых поколений".
Результата диссертационной работы внедрены в производство в составе информационно-поисковой системы учета наличия и движения строительных материалов.Внедрение подтверждено соответствующими документами.
Окгские пм
- разработка методов моделирования вдутрпмор'Т'бКчых ггазбуквэнных
отношений;
- разработка методам математического описания меяиор-фемных синтактических отношений;
- разработка принципов математического моделирования мезаюрфэмных семантических связей;
- реализация полученных методов.
Апробация работы. Основные результату диссертационной работы докладывались и обсуздались на Всесоюзной конференции " Бионика интеллекта " (Харьков, IS87), "Психологическая бионика" (Харьков,1989), "Бионика интеллекта" (Харьков,1990), 9 Всесоюзном симпозиуме ■ "Эффективность , качество и надежность систем "человек-техника". (Воронеж, 1990), на V Всесоюзной аколе-семинаре с приглашением зарубежных участников ''Бионика интеллекта" (Харьков, 19Э1).
Публикация. По материалам диссертации опубликовано 8 работ.
Структура е объем работы. Диссертационная работа состоит из введения, пята глав, выводов, списка литературы и приложений. Общий объем без списка литературы и приложений составляет 145 страниц машинописного текста.
СОДЕРЖАЩЕ РАБОТЫ
Во введении обоснована актуальность рассматриваемых проблем, сформулирована цель и основные задачи диссертационной работы, раскрыты вопросы научной новизны и практической ценности работы, отмечены основные положения , выносимые на защиту, а также Лгка общая характеристика работы, изложено ее краткое содержание.
5__Л£Рвоа_гляве диссертации проведен анализ литературных
источников, обосновала необходимость моделирования естественного языка, дан обзор исследований и разработок в области моделирования ЕЯ. Произведен анализ состояния вопроса, показаны перспективы развитая данного направления. Произведен обзор современных информационных систем, дан обзор разработок по моделировании словообразования. Дана характеристика производных существительных, межтарфамзыэ связи которых являются объектом ^тематического (доделарования. Рассмотрены проблеш, шзнзкащие при моделирования семантики дериватов.
Кок известно, естественный язык является шегоуровневой системой . Существует идея, что каждый уровень языка обладает с"01Гг.1 синтаксисом, который укззнзает, как сочэтять единицы этого уровня между собой. Например, синтаксис Сонслопноского уровня содержит йкформацап о том, какие буквы могут сочетаться между собой, а какие нэт. Синтаксис на урозпе морфе» указывает, какие морфема вступают мезду собой в ¡контакт, а какие сочетания по-доцусттд! и. д. Как ноказалп исследования. значительное число морфем является неоднозначными в семантическом плене единицами, т.е. для них характерны явления сшне-ши и полпсе?.еи. Известно тагсга, что при взакчодеа, тага морфем на все семантические роли рядом стоягщх г.зорфе»5 согласуется гкяду собой. Часть семантических связей остается не реализованной. При этом существует определенные закономерности, регулирущие образование мэггюрфвмяых семантических связей.
Иатомэтнческоь спясанае данных зякоясшряостей является основной задачей настоящего исследования. Одебко проядз чем исследовать семантическую сочетаег.юсть ,>?орфзм, иеобгодгото расс^отрэг'] незйунветшв свлзл внутри морфом, т.о. внутри,''орфэкдаэ
отношения контактика, а также ¡¿з^орфбглшз отношения спнтактшш, определяющие., какие ьк>р5емв шгут вступать в контакт между собой, а нахяо вот. Решзше атих задач позволит, во-пэрвих, откорректировать возможнее ошибки, возЕиназдпэ ирп вводе информации „ а, во-вторых, установить зшрзт па сочетаемость морфем, коториэ па семантическом уровне шгут сочетаться, а па уровне спнтзктики нот. Это позволит скстомэ избэааъ'ь таких ошибок, как синтез производных тиха "работателъ" вместо "работник4.
Для решении поставленных задач необходимо вызтъ соответствующий математический аппарат. В качества такого аппарата била выбрана алгебра конечных предзка-го! (АК11), разработайся профессором О.П. Шабанознм-Кушарекко. Алгебра конечных предикатов является универсальным математичаскпм аппаратом для описания дискретных, детерминированных и копетшх обьактов к явлений. Поскольку естест-иэншй язшс является дискретным, детерминированным и конечна;,: объектом., то он кояот быть описан средствами влгебры коночных предикатов. Алгебру конечны?, арэдакатоз кзаш рассматривать как разновидность булевой алгебры. Ня язпке А1Ш когно описывать лвбые конечные отношения. АШТ является развитием аппарата многозначной логики и исчисления прздюштов.
Для математического описания внутртюрфешых отношений контектики и мегморфемякх отношений сштактккн был разработан ке'юд двухслойной декомпозиции предиката, позволялияй бинарные предиката, описыващае те или шае текстовые отношения предотанпять в виде системы (копьшкции) более простых предикатов.
Вторая __1\каза посвящена разработке математических моделей внутрь&юрфежшл отношений контактики. Пусть бинарное отношение хРу описывается предикатом РГг, у). Предикат Г можю представить » виде:
(
Р(х,У) = Q(f(x),B(y)), (1)
где U - !(х), 7 = g(y) - некоторое классп£жщрухж.зо функция, предикат Q(U,V) описывает снизь меаду .жш фуншщяш. Представление предиката Р(х,у) в ецдэ соотношения (1) иошю рассматривать как метод декомпозиции бинарного предиката. Будем называть его нзтодон двуслойной дэкошозш^п предиката.. С помогла этого метода предикат раздвллется на два слоя - шшшй, представленный функциями f(x) и 8(у), и верхний, представленный предикатом Q(U,V). С использованием данного метода было осуществлено математическое списание закономерностей сочетаеглости переменных букв лингвистического регистра сэшэпжровЕвак префзксов (ЛРСП).
Обьздяненке букв в классы эквивалентности осуществляется путем склэивапия строк л столбцов таблацы значений предиката. При этом строки (столбцы) одного и того so состава зй.таняются одной строкой (столбцом) такого яе состява. Для того чтобы произвести склеивание строк (столбцов) djrroiau по составу, вводятся дополнительные единиц« (1*,1') так, чтобы строки (столбца) максимально близгаю по своему составу превратить в строга (столбцы) одинакового состава.Б дальнейшем введенные при этом дополнительные связи-квзду буквенными переден, .а?ги лингвястячоского регистра псилича-¡отсл с помощью соответствующих шяугадатпвинх уравнений .Для того-чтобы упростить систему соотношений, предсташиндаз исходный бинарный предикат, в таблицу значений предиката Q(U,V} били введены дополнительные единицы (1*,1~) и произведено обьэдшгепио горе-мошшх классов экидзалонтпос-ги U и V d класса классов эквшзалвкг-
ности l?| п У,.
Данный метод начло назвать методом трехслойной декомпозиции предиката. Сн иоззт использоваться при декомпозиции прэдикатов.
дыэвдих теблшщ значений большой размерности. Произведена схемная реализация полученных соотношений. Произведен сравнительный анализ сложности систем соотношений и их схемных реализаций, полученных с использованием метода двухслойной декомпозиции предиката н штода трехслойной декошозицви предиката.
В данной глаие произведена разработка ыатемг/таческих гаделей внутренней структуры корневых шрфоы. Математические ¡юдоли кон^аккшн лингвистического регистра сегментированных корлэй (ЛРСК) ошощзают более 4400 корневых юрфов русского языка, загруженных но определенному правилу в отот регистр.Таблицу значений предикатов, задающих данные отношения, содержат в своих ячейках больше единиц, чем нулей, поэтому при объединении букв в классы аквивалентЕОсти, т.е. при склеиванш строк и столбцов удобно было вводить не дополнительные единицы (?г,Г), а дополнительные нуля (0*,0'), что означает исключение некоторых связей моаду перо-шяниш лингвистического регистра. В дальнейшем эти связи восстанавливались с помощью соответствувдих шшшкативных уравнений. Км-оязкативное разлоголяо преданатоа, задающих связь коэду классами эквивалентности V и У^акае удобно было производить по кулэвш, а нэ то еданячЕШ ячейкам, так как таблица значений этск предасатов содержат в своих ячейках значительно больше единиц, чей нулей. Была произведена схемная рэалвзацзя полученных соотношений. Эта со-отноиения была реализована с помощью шюгополюсшков, называемых элемзнташ I и II рода.
Элемент I рода работает в соответствия с соотношение« в а, 8о а_
следующим образом: рели на вход многополюсника подать сигнал
я» и
X '=1,то элешент формирует отаетанй сигнал У = 1,1 с Г?,2,...,п);
в з< а? ап а1 ап
если- У = О, то X = X <=...= X п= 0, если X ^ X '-=...« X п= О,
в в а.
то У = О. При п=7, если У =1, то X '=1. Элешнт I рода показан
на рисунка
Элемент II рода (ркс.1,6) действует в соответствии с соотношением:
УэГ 7Г? ... 7ХП.
а1 а? ап
При входном воздействии X = X =..X = О ейходной сигнал в в а.
У = О .Пря п=1, если У =7, то X '=?.
Поскольку при склеивании строк и столбцов ш ввода! дополнительные гаггбуквэнныо связи, а затеи исключаем их, необходнш ввести в рассмотрение так называемый элемент II рода с отрицанием (рис. 1р), который действует в соответствии с соотношением
в э< ао а„
Ы1 у X V ... у X .
а. ар а_
Прн входном воздействии X = X =.. .= X = О, выходной сигнал в в а1
У = 1. При п = 1, если У = I, то X '= О.
а1 X 1 Ув
X 2
*8
X п
.... .. ....
а X л
а) б)
Рес. 1
-/В уаг
1а X
:/п
в)
1
X
С использованием метода двуслойной декомпозиции предиката были разработаны математические модели внутришрфомаых отношений контактики суффиксальных морфэм, загруженных в лингвистический регистр сегментированных суффиксов. На основании нашученных соотношений произведена кх схемная реализация с использовашэы элементов I и II рода, а также элементов II рода с отрицанием.
В данной главе рассмотрен тэкеэ вопрос представления тернарных отношений через бинарные. Не примере кеабукввнннх отношений рэгистра сегментированных суффшссов показано, что тернарные предакатн, задающие связь между всеми тремя буквенными переменными кавдого сегмента ЛРСС^могут быть представлены либо в виде конъюнкции бинарных предикатов, задающих связи между первой л второй и второй и третьей буквенной даремегщцми данного сегмента, либо в виде конъюнкции трех бинарных предикатов, последний из которых описывает связь между первой и третьей буквенными перэкеншш данного сегменте.. В первом случае можно будет, например, отношение S1(у<= 1 задать системой уравнений, которая будет являться объединением систем уравнений, задаицих отаогаения 2 Уг%Р3* Схема, реализующая отношение
5)(1'\>У= 1 » rjmh представлена последовательным соеди-
ненней схем, реалпзущет отношения и у2%Уз
Qt
Уг Рис. 2
то
Во второй случае, чтобы воспроизвести отпспогта ^¿У} к * ,
ЕЭОбХОДПМО ЗССОЛЬЗСБаТЬ СТШКу, ПОКаЗОШО'И ИЗ рТ1С.З, ГДО -
предикат, задашщй связь гаццу тарзой и третьей букйеншш пере-цзнтадн данного сегкэнта.
•оУ?
Рис.3
Третья__глава посвящена математическому тдалнровашш глззз-
шрфешщх отношений сиптактшш. Произведена разработка математических моделей синтактзкн префиксальных шрфем глаголов, разработаны математические модели мэзморфемных отношений спитактшш суффиксальных шрфем глаголышх образований. Формализованы рлегшр-фемные отношения сиктактшся суффиксальных мор|эм прилагательных. Разработаны математические модели мзвморфемшлс отношений синтак-тикн на ежоеоство суффиксальных горфэч наречий. Для математического описания мэзморфемных сштактаческня отношений необходимо Елеть иатематкческув конструкцию, которая позволяла бы за каждой гарфешй закрепить определенное место да истшизнпл поливариаит-иостп толкования той ели иной )Щфгт. В качестве такой математической конструкция бая использочэн регистр йор^эмиого поля.
В частности, регистр профпкеалкгого поля состоит из трех частой Р1, Р?, рз» так как самая длннпап префиксальная цепочка со-
держит три префикса. Прзфиксн в регистр префиксального шля загружаем так, чтобы есклзчить случаи повторения одних и тех же префиксов в различных частях регистра. Однако бывали- случая, когда один и тот se прэфзкс в одной префиксальной цепочке находятся на первом (по-psc-c), а другой - на последнем месте (пред-рас-по). Если па каком-то каста регистра прэфаксального поля профшс отсутствует, то на етш месте ставится знак пустого префикса или просто пробел (_).
Рассмотрим в качестве примера шашрфемнор отношение заданное на декартовом произведения Р2хР3 множеств префиксальных морфем, стояща аа втором и третьем кастах в регистре префиксального поди глаголов. Предикат согласно методу
двуслойной дэкоиюзицйи предиката моеэт быть представлен в слвдущвм саде:
£§ГР2.Р3; = з*)-
Здесь tb, « f2(P2) к V2 « fi^fPgí - класск^шцарувдш функции, задашще разбиение кножэств префиксальных шрфен Р2 и Р3 на классы вквЕЕадэнтности. Прэдзкат tig(U2,V2) описывает связь мецду пэрешлшш-ги классаш еквтшалентности ü2 и F2. Разбиение шожестз прэфйксалышх кзр£ем Р2 н Р3 на классы экеиззлйнтносте осуществляем, скдэшзап строки п столбцы значений предиката Q2(P2,P3). После смета пня строк функцию f2(P2) >шо записать в сладукдем виде:
со i:o вз вы
Y Р2 v Р2 у ?2 V Р2 v
изо ку вы ягз на v Р2 v Р2 у Рг v Р2 у Р2 у
прк при раз V Р2 У изо
и2 ~ F2 У Р2 То fc.
s пода подо су SS
Р2 у Р2 7 Рг У Р2 V Р2 '
прэ чи про про во во Сое бес у
Р2 7 ?2 ! U2 ~ рг ; ^2 ~ Р2 : °2 ~ ?2 7 Р2;
рас pao. под под бог 5эз о с
Ï7-, м Р^ в D'i » Рр ) ^ Ро « ** *
Поело склеивания столбцов функция é^^V принимав? вид:
зэ за об о о из па
?2 ~ р3 у р3 ; У2 ~ рз; VZ ~ р3 '
по по яэ то со -<
у2 « р 3; v3 - г3 ï 73 ~ р3; v3~ р3. В резу.чьтате проведешь« деЭстай! тейдща значений прьдаката q2(P2,P3) оказалась преобразованной в таблицу значений предиката JÇ (U2.V2). списывающего 'связь ;эйду пзрененгкш У2 и 72. Производя имшошзтЕСЕша разложение предиката i?2 по переменно!! иг, получаем следу гщэ систему имшшкатавшй ураЕнетй:
ппа -1 про из во о —
" = V2; U2 О Y2 У 7g; У2 ^ 7g V 7г;
бэе С Р8С ПО С -J
У2 3 7 7г; У2 т72т 7г;
под за боз за о на -•
U2 3 72 У 72; У2 э 72 У 72 v tj 7 7г;
о па по за о на по из с
[/2 э 72 У 72 У 7? ; ?/г э У2 7 v 72 7 72 v 72 7 72 7
Кчаликативное разло:аэшш предиката fíg по переменнойТ2 дает другой вариант его описания:
за под баз о во бэз -j
72 э U2 v U2 7 У2; 72 => U2 у ü2 у Уг;
на без с — tío peo с V? => U2 v 72 Uz v У2 у У2;
из про с бео pao
72 э Í72 У U2; 72 э У2 у У2 ?
- при про во бэо рас под без с 72 з U2 7 U2 У У g 7 у2 7 У2 7 д2 7 ^2 7 ^2 7 UZ'
На основания полученных уравнений, используя алвшнтп I и II рода, »ложно построить схему шюгоползешкэ, реализующего шжорфэкпое
п
отношение сиитактшш P2Q2P3.
Для математического описания сштактаки суффкксальшг кэр$вм глаголов был использован регистр суффиксального поля глаголов (ГСПГ), в котораЗ в определенном порядке загружен суффиксы, входящие в состав суффиксальных цзпочек глаголов. Суффиксы в регистр суффиксального шля глаголов загружаются так, чтобы они как ксхно рике повторялась в различных частях регистра. Аналогичным обрезок производится г-атежтпескоэ описание мзгморфэгашх отаоше-гсгЗ сютакткш с'гф!'шссалъных юрфэм пршхататалызк, вагруавнных в регистр суффиксального поля прилагательных, в такаэ суффиксальных трфегл нарочиЗ, загруженных в соотБэтствуйащй регистр суффиксаль-пого поля. Произведена схемная реализация полученных соотношений.
В_четвертой гддвз пропзведопо математическое описание
корфвмьщ семантических отношений. Даш оОщ.йэ принципа математического описания ые^даорфемпш: семантических связей. Получены математические иоделп семантических отеошэннй па морфемном шве префикс - префикс, произведено штецатнчоское описание ¡«шгарфаиных семитических связей префиксэльно-кориавнх структур, суффжсалышх дериватов, а такаэ осуществлено математическое описание семантики суффиксальных Дзпочек.
Одной из С8ьшх вагшп пройга?4 при создании ИНТеЛЛеКТуаШЛОГО интерфейса является едэ'шатыая интерпретация смысла сообщений, решение которой невозможно баз понимания смысла слова. Как известно, скисл производного слова (а шенно такие слова ми будем рассматривать) в общем случае, нельзя описать как простую сумму сшслов состазлккдах ого трфов. Для того чтобы лучше понять механизм формирования смысла деривата представляется необходш.шм произвести «.чатематаческоо описанио цеяморфемяых семантических связей, БОзяиквЕщет в процессе словообразования мо?ду смезашма
иорфэмама, входащжш в состав производного слова.
Пусть имеется жозестБо проазгодяах слов, аз которнх
>.юггет быть представлено в екдэ:
P,v Р2 V а V stv s2 v Я, где Р1, Р2 - ирэфякеальшэ морфзкч, Q - корневая гюрфэна, Sj, S? ~
суф$ткс8льш10 морфвзда, я - окончйнко.
Знак ? подзывает, что меэду этаз • ;.:орфагжн устаяашшавтся опредгляша» сгастлпвскйв связи, которое нэобходкот отесэть пятег'г/пгюск".
Если дано шюгоство а морфем одного тша, та sa ¿том мвоееетеэ kosito веэстй свстеку предикатов S ysii, ч?о<*;; любой предикат ?( i ) е S обращался в 1 на мпогвствв ькзрфэм с какой-то определенной семантической ролью н бал равен О а противном случае. Таким образом,множество предикатов S ?.здзно отождествить с [лножество« семантических ролей данных морфзн. Каздому элементу А из M соответствует mhossctbo продккатов из S, дающих 1 при подстановке А. Следовательно, каздому А € У взаимно однозначно соответствует некоторый одноместный подстановочный предикат A(t ), где i ç S, Таким образом, глы получаля шюзество S секантяческет ролей с определенным на нем многеством II предикатов - морфем. Рас-смотрш теперь два шоаэства сомаггппзисих ролей S1 н S2 п два шожества предакатов - иорфэм я Тогда операция соединения двух морфем, множества сеиалтическшс ролей которых описнвавтся продзкатама и Р2(l^). будет характеризоваться согласованием
опредолзшшх семантических ролей этих двух морфем. Результатом этого соединения будет ;.31с;зс71ю связей г.!езду семантачвскЕия ролями рядом стояща морфем. Это ^юг-зство иогзг быть задано некоторым бинарным предикатом ,t2), причем Pf11 ,t2) ■* P1 (t, )'P2(t2) я.
если предположить, что возможность установления семантических связей не зависит от вида морфем, то на декартовом произведении х $2 мне«® ста семантических ролей можно за/зть предикат принимающий значение 1, если между семантическими ролями е и ¿р € Б0 устанавливаются связи и О - в противном случае. Логическое произведете Р^ ("г, означа9Т возможность согла-
сования каедоП семантической роли морфемы Р^(^) с каждой семантической рольв шрфекы Однако, в действительности часть семантических ролей рядом стоящих морфем пе согласуется , поэтому опэрацля взаимодействия (*) семантических ролей морфем запишется -слвдущяы образом:
Логическое произведение Р1описнвээт все связи мезду семантическими ролями моргом Р, (г,; и а исключает
то связи, которые при атом не реализуются.
Рассмотри« в качестве примера процесс образования производной слово^ор'гйи "работник", нолучбшюЗ путем соединения полисемантичной производящей основы "работать" и суффиксального морфа "-ник". В процессе словообразования при взаимодействии корневого морфа производящей основы "работ-ать" и суффикса "-ник" образуется производное слово "работник". Семантические связи, вознзкащие при этом, могут бить описаны с подащьв предикате
&0 ио е- 1ь г, и, я?- и, гс, и, Зо и?
<*3 1Т * «3 и * *3 *4 4 «3 и У *Э У *3 *Аг>-
2, ач Е, Ег, и? Но и, Нг и^
.(«з1 V у г33 у г3А у • а/ у г/ у V г/ у =
я,
= гз М у *з м 7 гз м •
Полученный предикат представляет собой ¡¿атемэтическув модель семантических связей корневого л суффиксального морфов производного слова "работник". Аналогично осуществляется матомзткческов описапие семантических связей префиксальных цепочек, пре^лксвльно-корневиг образований, а также цепочек суф$2хсалъ5Е! морфем.
Разработанные модели позвалгет такте вычислять семапткческвв значения дагптой корфепюЗ цэпочот, з которых опа является синонимичной со всеми остальными цепочками, получавшими на выходе систвгёы. Для этого г^обходжю произвести логичэсксв умножение предш{атов, описывающих семзптнческпэ значения морфемных цепочек. Следует отметить, что и исходные шрфеш в некоторых семантических ролях могут быть синонимами. Семантические роли, в которых исходные морфемы является синонимами, можно вычислять производя логическое умножение предикатов, задающих множества семантических ролей этих морфем. Так, например, префиксальные морфемы "при-" и "по-" являются синонимами в семантических ролях х,7 и Хд, так как логическое произведение предикатов, задающих множества семантических ролей ьтяз ¡горфзм, имеет вид:
» г^1 у
Таким образом, перемножая кэаду собой предикаты, задающие множества семантических ролей исходных гдарфем, шжно автоматически вычислять семантические роли, в которых данныэ шрфекш являются синонимами.
В пятой глава рассмотрены вопросы практических прилояений результатов исследования. Разработан алгоритм формализации катода
двуслойной декошозедюа предиката. Данный алгоритм реализован программно. Дано описание программы, предназначенной для осуществления дакошозицш бинарных предикатов. Програша наш&ана на ал-горхтшвскок языке Паскаль и работает па 1ВК - совместимых персональных ЭШ. Разработан алгоритм решения предикатных уравнений, ошсыващих шаюрфемкыэ семантические отношения на различных кэа-МОрфеМЕЫХ ШЕЭХ производного слово. Осуществлена црограшная роали-задия этого алгоритма. Рассштрешл вопросы схемной реалйзашш получения Тт'одзл&Ё, определено место этих моделей в информационных системах.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1. Разработана методика математического моделирования внутриморфемных мажбуквенных связей.
2. Получены систеиы уравнений, описывающие кежбукЕенныв отношения префиксальных, корневых и суффиксальных морфем производного слова.
3. Произведена схемная реализация полученных уравнений.
4. Исследована возможность представления тернарных отношений через бинарные и произведена схемная реализация полученных предикатных уравнений.
5. Рассмотрена возмогность использования метода двуслойной декомпозиции предиката для математического описания межморфемных отношений скнтактики аффиксальных морфем.
6. Разработан метод математического описания кэаиорфемных семантических связей.
7. Получены математические модели семантики производного
слова с учетом явлзш'я ошню.сш и полисе?лШ морфзм.
8. Разработаны метематнческгз модели явлзния сеноишпи гюрзам и морфемных структур.
9. Результаты дяссертацдатюй работы внедрена в производство в составе ипформащтогшо-п ; скобой системы "Учет наличия н дви-гения строительных материалов". Получен социальный и зкономкч&ский эффэкт.
Осиавпоэ содердзяиэ работа газяорзно в сяедшгсс aytijsmttpiiixt
1. Булгаш D.H. 5Кранец О.М. О некоторых мат&мзтнческш! моделях семантических связей.- Два. в УкрШГГЭИ, N 1400 - Ук.92,1992.-10 с.
2. Булшш В. И., Кузьненко Е.А., Лихачева O.A. Использование метода двухслойной декомпозиции предиката для иэтематичоского описания закономерностей суффиксального словообразования // Материалы 7 Всесоюзной школи-сешшара с приглашением зарубежных участников "Бионика интеллекта", Харьков, 1991, с. 15
3. Булкин В.И., Кравец О.М. Ситников Д.Э., Шаронова Н.В. Разработка математических моделей мзаморфеквнх сонантических отношений на шожестве префиксальных морфем. - Деп в УкрИНТЭИ, И 1742 УК. 92, 1992. - 10 с.
4. Булкин В.и., Краввц о.м., Шаронова н.в. Математическое моделирование межбуквенных отношения // Автоматизированные системы управления и приборы автоматики. Вып. 104, 1993.-с.15 - 21 .
5. Булкин В.И., Левицкий A.C. О сочетаемости семантика морфем на уровне элемептарпых смыслов // Материалы Всесоюзной школы-семинара "Бионика интеллекта", Харьков, 1987, с. 17.
6. Булкин В.И. .Ситников Д.Э.,Шсбанов-1Су0нарэнко Ю.П. .ШароноваН.В.
Математические модели кеаморфеьшых связей на множестве полисемантичных пронзводящнх основ и словообразовательных суффиксов // Проблемы бконики. Вып. 47. 1991. - с.З*- 8.
7. Булкин В.К., Ситников Д.Э., Шабанов-Кушнаренко И.П. а др. Математическое оннсапне закономерностей сочетаемости элементов лингвистического регистра оегмет'ированных суффаксов имен суцест-пнтелькых.Сообщение I // Проблемы бионики.Вып. 49, 1993. с. 21-27.
8. Булгаш В.И., Явтушенко Е.В. Математическое моделирование гйЗЕбуквенных отноеэннй лингьисгнческого регистра сегментированных нрэфиксов. - Дец. в УкрЛШТЭй, N 1259 - Ук.92. - 9 с.
Подписано к печати 8.04.93г. . Объем 1,25 пач.л. Уч. - изд.л. I
Формат бумаги 60 х 04 Ъяр. 100 экз. Зак. 477
Типография ХВВКйТВ, Сумокая,77/79
-
Похожие работы
- Компараторная идентификация лингвистических объектов
- Модели и методы автоматической обработки неструктурированной информации на основе базы знаний онтологического типа
- Методы и алгоритмы автоматического реферирования текста на основе анализа функциональных отношений
- Концептуальный анализ текстов в системах автоматической обработки научно-технической информации
- Математические модели префиксального словообразования и их использование в системах автоматической обработки текстов на русском языке