автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Алгебро-логические модели семантики текстов природной речи

кандидата технических наук
Стороженко, Александра Владимировна
город
Харьков
год
2000
специальность ВАК РФ
05.13.16
Автореферат по информатике, вычислительной технике и управлению на тему «Алгебро-логические модели семантики текстов природной речи»

Автореферат диссертации по теме "Алгебро-логические модели семантики текстов природной речи"

РГВ од

1 [ШйОВСВКИЙ ДЕРЖАВНИЙ ТЕХНІЧНИЙ УНІВЕРСИТЕТ РАДІОЕЛЕКТРОНІКИ

СТОРОЖЕНКО ОЛЕКСАНДРА ВОЛОДИМИРІВНА

УДК 519.711.3

АЛГЕБРО-ЛОГІЧНІ МОДЕЛІ СЕМАНТИКИ ТЕКСТІВ ПРИРОДНОЇ МОВИ

V?. & /£

Спеціальність йі .05.03-^ математичне моделювання та обчислювальні метода

АВТОРЕФЕРАТ

дисертації на здобуття наукового ступеня кандидата технічних наук

Харків - 2000

Робота виконана у Харківському державному технічному університеті радіоелектроніки, Міністерство освіта і на^ки України.

Науковий керівник доктор технічних наук ЇІІабанов-Куішіаренко

Сергій Юрійович, Харківський державшій технічний університет радіоелектроніки, професор кафедри програмного забезпечення ЕОМ.

Офіційні опоненти: доктор технічних нате, професор Сіроджа

Ігор Борисович, Державший аерокосмічний

університет ім. М. Є. Жуковського «ХАІ», завідувач кафедри програмного забезпечення;

доктор технічних наук Хахаиов Володимир Іванович, Харківський державний технічний університет радіоелектроніки, професор кафедри автоматизації проектування обчислювальної техніки.

Провідна установа: Національний технічний університет України

“КШ”, (кафедра Прикладної математики), м. Київ.

Захист відбудеться '¿0' їг/иксі.? 2000 р. о /д ^ ’'годині на засіданні спеціалізованої вченої ради Д 64.652.02 у Харківському державному технічному університеті радіоелектроніки: 61166, м. Харків, ир. Леніна, 14.

З дисертацією можна ознайомитись у бібліотеці Харківського державного технічного університету радіоелектроніки за адресою: 61166, м. Харків, лр. Леніна, 14.

й" //_" ЇҐІІСійй?

Автореферат розісланий" !т " /Зиииоси* 2000 р.

Вчений секретар ,

спеціалізованої вченої ради БезкоровайіцгііВ.В.

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

Актуальність теми. Ефективність використання обчислювальної техніки в інформаційно-технологічних процесах залежить від інтерфеиса обміну ¡¡(формацією між користувачем і системою. На даній мймент спілкувати користувача з комп’ютером переважно проходить за допомогою програмних продуктів, написаних різними мовами програмування, тому необхідно розвішати програмне забезпечення, спрямоване на виконання завдання обміну інформаційними ресурсами з ЕОМ на природній (або максимально наближеній до природної) мові.

Одна з реальних можливостей розв’язання цієї проблеми - це створення інтелектуального інтерфеиса, який був би зв’язуючою ланкою між користувачем та комп’ютером. Головні його функції - адекватне сприйняття запиту природною мовою (неможливе без розуміння змісту окремих слів), розуміння машиною запиту, формування правильної відповіді, яка цілком задовольняє користувача. Проблемам здобуття, накопичення, поновлення вже наявних знань про структуру, механізм взаємодії окремих рівнів природної мови, яка використовується для формалізації в .математичному апараті, присвячена достатня кількість наукових робіт. Слід відзначити, що великий внесок у розв'язання завдання формалізації природної мови зробили Попов Є.В., Віноград Т., Бондаренко М.Ф., Шабанов-Кушнаренко Ю.П., Сіроджа І.Б., Шаронова Н.В.

Але, незважаючи на безперечні досягнення в дій галузі досліджень, існує ще ряд обмежень на різних рівнях формалізації мови, що викликане його неповними математичними і логічними описами. Комплексні дослідження лінгвістичних конструкцій різного ступеня складності фактично відсутні. Потрібний такій ліхід до досліджень лінгвістичних конструкцій, який враховуватиме предикативний запис окремих лексем, словосполучень, семантично-синтаксичний аналіз більш складніших структур. Основою для його побудови можуть служити алгебро-логічні засоби формалізації природ-дамовних процесів.

Зп’иіок робот» з науковими програмами, планами, темами. Дисертаційна робота виконувалась згідно з планом науково-технічних робіт Харківського державного технічного університету радіоелектроніки в рамках держбюджетах тем: №452 ‘Розробка загальних принципів, методів, моделей і алгоритмів семантичної обробки інформації для побудови інтелектуальних інформаційних систем’ (№ ДР0196Ш3503) і №350 ‘Розробка теорії штучного інтелекту на базі дослідження механізмів розуму людини та її застосування для проектування та побудови інтелектуальних інформаційних систем’ (№ ДРО19711012126).

Метою даної дисертаційної роботи є розробка комплексу алгебро-логічних засобів формалізації лінгвістичних структур природної мови для розширення можливостей інтелектуального інтерфейса користувача, а також насту пна реалізація отриманих моделей у вигляді програмних продуктів. Для досягнення вказаної мети в дисертаційній роботі здійснено розв'язання таких задач:

1. Аналіз теоретичних передумов в галузі формалізації висловлювань природної мови для побудови математичних моделей деривації складно-словних формантів.

2. Розробка ряду тотожностей, які забезпечують використання інструментарію алгебри кінцевих предикатів для опису речень, словосполучень та окремих словоформ.

3. Моделювання частин мови (іменника, прикметника, перехідних та неперехідних дієслів, порядкових числівників, прийменників, дієприкметників, прислівників) кінцевими предикатами різних порядків для переходу від природномовних висловів до математичних.

4. Моделювання простих розповідних речень природної мови формулами лінгвістичної алгебри.

5. Розкладення двохосновних іменників російської мови на різні сема-тичні класи для первинної формалізації семантики складного слова.

6. Моделювання морфемних структурно-сематичних відношень в цих класах; виявлення набору семантичних розшифровок, використаних при аналізі дереваційних процесів в лексемах.

7. Побудова математичної моделі сентагматичних обмежень сполученості кореневих морфем у словах з двома основами.

8. Розробка алгоритмів, які реалізують побудовані математичні моделі, апробація їх обчислювальних властивостей.

Наукова новизна отриманих результатів:

- запропоновано розширення інструментарію алгебри кінцевих предикатів шляхом введення понять моделей та операцій над ними, предикатів з випадково заданою областю визначення;

- отримана подальший розвиток гіпотеза про близьку аналогію між висловлюваннями природної та математичної мови, на підставі чого введені поняття лінгвінстичної алгебри та її закони звуження, аддитивності, однорідності;

- забезпечена формализація простих речень шляхом удосконалення алгебро-логічної моделі найпростішої лексичної одиниці - слова;

- запропанована метода формалізації лексем, що дозволяє здійснювати семантичний аналіз іменників, які містять в собі дві кореневі морфеми;

- побудована математична модель, що враховує семантичні і граматичні обмеження стикування змістів кореневих морфем при деривації

з

:кладиих лексем.

Практичне значення отриманих результатів роботи:

- розроблені алгоритми, що дозволяють на основі запропонованих моделей створити комп’ютерний словник економічних термінів, пошук лексем в якому може здійснюватися тільки по одній кореневій морфемі, а саме програмний продукт “Котр", який с програмною реалізацією комп’ютерного словника економічних термінів;

- запропоновано алгоритм, який на остові попередньо зібраного матеріалу дозволяє проводити аналіз за граматичними та семантичними ознаками про можливості існування складної двохосновної лексеми в природній мові. Програма “Vorm" реалізує розроблену математичну' модель і методику, що використовується;

- разроблена система, яка виконує подання простих розповідних речень природної мови у вигляді граф-схеми та формул лінгвістичної алгебри. Розроблені моделі та алгоритми знайшли конкретне практичне застосування, як в навчальному процесі, так і у TOB “Linie Ltd.” - для розробки лінгвістичного забезпечення програмної частини системи машинного перекладу, що підтверджується відповідним актом впровадження.

Відповідні довідки про використання результатів досліджень наведені у додатках до даної дисертаційної роботи.

Особистий «песок здобувача. У fl, 4] автору належить теоретичний аналіз існуючих методів розв’язання логічних рівнянь, а також участь у розробці нового засобу розв’язання. У [2] представлена методика подання простого розповідного речення у вигляді граф-схсм н. У [8] автором запропоновано розробку алгебро-логічної моделі загального вигляду двохосновної складнословної конструкції. У [5,7] проведено аналіз та пояснені перспективи використання автоматизованих бібліографічних систем. Участь у процесі моделювання лінгвістичних зв’язків об’єктів української мови [б]. У [9] автором запропоновано оригінальний підхід до розгляду проблеми побудови автоматизованих природномовних систем штучного інтелекту. У [10] автором здійснено підрахунок щільності послівних розбіжностей для усіх пар з текстів на 7 мовах, за результатами побудована симетрична матриця.

Апробація результаті« дисертації. Основні результати доповідалися та обговорювалися:

- на 3-му Міжнародному семінарі "Актуальні питання впровадження інформаційних технологій у документально-комунікаційній сфері”

(11-13 вересня 1996 р., м. Харків);

- на 1-му молодіжному форумі “Електроніка та молодь в XXI сторіччі" (22-24 квітня 1997 р., м. Харків);

- на 2-й науково-методичній конференції “Використання комп’ютерних технологій у навчальному процесі” (18-20 листопада 1998 р., м. Харків);

- на молодіжному форумі “Радіоелектроніка та молодь в XXI сторіччі” (20-22 квітня 1999 р., м. Харків);

- щорічних науково-технічних конференціях професорсько-викладат-ського складу Харківського державного технічного університету радіоелектроніки (1995-1999 рр.).

Публікації. Основні результати роботи опубліковані у 10 наукових працях (4 статтях, які опубліковані у виданнях, що затверджені ВАК України, тезах .5 доповідей на наукових конференціях, 1 депонованому' руко-писі).

Структура та обсяг дисертації. Дисертаційна робота складається з вступу', 5-ти розділів, висновків, списку використашіх джерел, 5 додатків. Повний обсяг дисергаційноі роботи - 189 сторінок. Дисертація містить 11 рисунков на 9 сторінках, 11 таблиць на 4 сторінках, 5 додатків на 29 сторінках, список використаних джерел з 93 найменувань на 9 сторінках.

ОСНОВНИЙ ЗМІСТ

У вступі обгрунтовано напрямок досліджень, доведена його актуальність, сформульована мета, а також основні завдання дисертаційної роботи; викладено короткий зміст дисертації, виділено основні положення, що виносяться на захист. Подано загальну характеристику роботи, розглянуто її структуру.

Перший розділ присвячений аналізу сучасного стану і основних тенденцій розвитку' інформаційних систем різного типу' використання. Відмічено, що на сучасному етапі розвитку автоматизованих інтелектуальних систем особлива увага приділяється розширенню класу експертних систем (ЕС). У зв’язку з цим розглянуті основні задачі, які розв’язуються за допомогою ЕС, галузі їх застосування, перспективи подальшого розвитку. Оскільки головною вимогою з боку користувачів до будь-якої ЕС (а також і до інших інтелектуальних систем) - цс максимально зручний процес спілкування з комп'ютером на звичайній природній мові, тому потрібно вміти адекватне представляти лінгвістичні конструкції різного ступеня складності за допомогою математичних виразів. Для цього необхідна математична формалізації мовних процесів, особливо дериваційних, які мають семантичну' наповненість.

Проведений аналіз галузей застосування інструментарію фор малізації природномовних процесів - логічних рівнянь, які використані прі

розв’язанні ряду задач теорії штучного інтелект)'. Наводиться запис системи канонічних рівнянь

Відмічено, що системи (1) використовуються при розв’язанні різних дериваційних задач чи формалізації процесів взаємодії між різними морфемами (префіксами, а фіксами, коренями, закінченнями) в окремо взятій лексичній одиниці - слові. Зроблено висновок про те, що вже до існуючих в даний момент алгебро-логічних засобів формалізації мови необхідно ввести ще деякі додаткові. У зв’язку з цим сформульована постановка завдання дослідження, яка випливає з цієї мети.

В другому розділі розглянутий математичний апарат, що пропонується використовувати для формалізації природномовних процесів. Даються визначення таких ключових моментів як: предикати і операції над ними, предметні і буквені перемінні. Введення поняття тотожно-помилкового, тотожно-дійсного предиката розпізнавання букви

Зроблено висновок про повноту і нескорочуваність базису алгебри кінцевих предикатів, що показує універсальність її застосування для формалізації процесів природної мови. Наведені основні формули, теореми і властивості алгебри кінцевій предикатів, за допомогою яких були потім формалізовані різні лінгвістичні структури.

Для опису7 відношень більш високих порядків (для побудови математичних моделей, що характеризують які-небудь якості об’єктів дійсності) введені кінцеві предикати і кінцеві відношення довільних порядків. З метою подальшого розширення описових властивостей алгебри кінцевих предикатів введене поняття моделі, стандартної та сукупних моделей, а також операції над сукупними моделями (|і =<Х, Л7!> и с2=<Х2 ,У;>).

Результат операції об'єднання двох сукупних моделей сЛ і ~ модель с,- <Х,У>, при цьому %= 1\ и , якщо

и-'і (хь Х2,..., Х„) = 1, (ХЬХ2,..., Хя) = 1,

4

(1)

(*1> *2.-, х„) = 1

(2)

Х = ХхиХг и ¥=¥1ч¥2.

(3)

Модель с=<Х,У> буде перетином моделей с і и (~ =' £і ^ \г). якщо X = Л'і г\ Х2 и У - ¡ і л їп .

Композиція моделей га с;(нс обов’язково сукупних) ІЗ МНОЖИНИ 'Л-ЦС з’єднання сі га с? в одну модель 2 = <Х,У> по неістотній до чотирьох предикатів Л-;. А;, Гь У2 змінній Хі :

для множини X об’єднаної моделі <Х.У>

АЧ х1,х2,...., хт )=Х\(х1,х2,...., хт )л/’ V Х2 ( X!, х2,...., х//( )лу2 , для предикаїу У

Г( X і, х2 Хт ) = }\ ( X!, х2 Хт ) V ) 2 ( X!, х2,...., х/п) хГ2 .

Розглянемо операцію бекомпозиції моделі <Х,У> по ЗМІННІЙ .V,- (істотної для предикату’ У{хі,х2,... ,,хт)), тоді предикат X'., який відповідає відношенню Х^, обчислюється за формулою

А ^ (Х^ ,Х2 ,~ А (X] ,Х2 ,Ху 2 , — г^т )?

а предикат У?;

ї^хх,х2,.,.,хт)^І{х1.х2,....,хі_1^.хі^х (5)

За допомогою формул (4), (5) будується система моделей виду С={<X %,}’<>} (с, єК), що характеризує декомпозицію моделі <Х, У>. Перераховані вище операції були введенні, гаму що і(ггелскт - це дуже об’ємна область, яка важко піддасться формалізації. Потрібно вміти розділяти його на більш малі частини. При цьому окремо аналізується кожна з підмоделей. Або ж навпаки, при проведенні дослідів з досліджуванім потрібно з декількох варіантів його поведінки отримати одну загальну, більш широку модель, то при цьому здійснюється синтез даної моделі.

Впровадження поняття предикатів із довільно вибраною областю визначення і використання теореми про імплікативний розклад предикатів служить основою для побудови системи продукціі'і, яка описує правила граматичного поєднання основ у складних лексемах. При цьому наочно демонструється процес здійснення механізму виведення, який внкористовуєтьс? при формалізації фрагментів природної мови на дериваційному

рівні. Попередньо склавши базу правил, вирази із якої замінені предикатами, ОТрИМуЄМО СИСТему аЛГСбрО-ЛОГІЧНИХ рІВНЯНЬ ТИП}'

Хла\ ЛХ2а2 ізХ'з''з =1, л:4°4 ЗХ2°2 = і,

Х4а4 =1

Розв'язуючи систему (6), приходимо до висновку про те, чи існує основна складнословна конструкція в лексиці природної мови (української чи російської) з точки зору правильності поєднання різних граматичних категорій.

Третій розділ дисертаціішої роботи присвячений подальшому розвине}' гіпотези про аналогії між природною та логіко-матемагичною мовами, що базується на тотожності їх висловлювань. Розглянуті основні правила запису математичних вігразів, з використанням операцій кон’юнкції, диз'юнкції, імплікації. На цій основі побудовані математичні моделі, які описують (за допомогою комплексу алгебро-логічних засобів) лексичні одиниці різних структур. При аналізі лексико-граматичних особливостей дериватів (охоплені фактично всі частили мови), забезпечено подання кожного з них у вигляді кінцевих предикатів різних порядків. Результати досліджень оформлені у вигляді таблиці 1 (0 ~ позначає негативну відповідь, 1 - позитивну).

Таблиця 1

Подання різноманітних чистин мови у предикативному виді

Частина .мови Унарний предикат Бінарний предикат

Іменник 1 0

Прикметник 1 0

Перехідне дієслово 0 1

Неперехідне дієслово 1 0

Порядкові числівники 1 0

Прийменник 0 1

Дієприкметник 1 0

Прислівник Операція над операцією

Даті зроблено ускладнення одержаних моделей шляхом введеня опрації кон’юнкції та заперечення. Внаслідок цього стало можливим здійснення

ВИКОРИСТАННЯ ОПЕРАЦІЇ КОП ЧОНЮЩ

(логічного помноження);

Висловлювання натурально} мори Тіч у. можемо використовуваги як чаїжа, гак і мягка" у предикатному вигляді

(нзшка і миска)(х)=чатка(к) мяскз(п)

ВИКОРИСТАННЯ ОПЕРЛИЙ ДИЗ'ЮНКЦІЇ

(ттспчйогл додавання)

СрсЗДШОЕНЙ сполучишся ад

-¿о-

Висловлювати мови

єднальний сполучник "або"

» (чаївсі^х) л масках)) V V (ЧШЖа(х)л мискг(х))

<=> (чаюса ьбс шілаХх)® «чапшаСя) V мисках)

ЛІНГВІСТИЧНА КОНСТРУКЦІЯВИГЩЩУ:

-=К

іс.гомківання н^мовп : три сестри <=> ірн сестрак)=

= три(х) ЛУу (у-€? о СЄСТр4іу)>

= сестри (’їрі<л)'

Річ я є Річ к в

або чашкою або мкекею с=> або чашкою йСо каскою

<-> (АбочашкаабзмискаХзО " абоїгл інш? разом <*»>

ВИКОРИСТАННЯ ОПЕРАЦІЇ ЗАПЕРЕЧЕННЯ висловлювання и/морн :

"Нззірно, щй річ х є чашкою“ <=>

<-> (не чашкаХх) - чашка(я)

ЛІНГВІСТИЧНА КОНСТРУКЦІЯ ■

/’пояснення,'

ТагШЕІіеіЗ ьчсловлювадня н/МОВИ:

"Принтер -дауьарськіиПрисїрй" <->

<-> (принтер -іруьт^ськлй присітзіи)(й)->

(принтер х) 3 ( Дру’СірСМснІІ ПрИСГрш(х))

Варіант . принтер £ лруьгрсшта пристрій

ЗВ <ЯЗОК ТІШУ "КЕР$7$АННЯ" :

належання Причетність (х, у) <-> річ к належить річ: у Висловлювання н мови лист дерева & лист дсрева(х,у) = лист(х) Л Зу (ц?рс=о(у) Л причетнісгь(х, у)).

Рис. 1. Формалізація лінгвістичних конструкцій за допомогою алгебро-логічних засобів

р] Гі, якщо і і є І;

ПО, якщо і і г І, деі-\,1.

к Гі, якщо к еК\

К Р =\ " —

) 0, якщо к &.К, де к ~\, р.

І &

У результаті отримуємо предикат і = . У ', , К р). який є преди-

катним записом загального віщу складного деревату

І=5{ лі'і А ^ АКкР =

А, к

= ( Л/і”' 1» V М*"г 2/ ) л І1 л ( N і17 1 і V ЛУ' 2у ) л К Р .

Наступним етапом формалізації було представлення складнослівної конструкції у вигляді двослівних словосполучень різних видів. Грятуючись на тому, що сеиантико-сіштаксичні властивості словосполучень визначаються в основному дсксико-морфологічними особливостями головного слова і в першу чергу його приналежністю до однієї з існуючих частин мови, виділимо 13 основних типів словосполучень, що використовуються. Наведемо фрагмент таблиці, побудованої на основі проведених досліджень (табл.2).

Таблиця 2

Дериватні варіанти виникнення складнослівних форматів із словосполучень

Тип словосполучення та тип відношень Т ип осн. 5, Тип осн. & Графічн. зображення зв'язку слів Приклад

Словосполучення '3 твірнім зв'язком іменник (С,) Іменник (Сз) С, + С2 Коренеплід -є корінь-плід

Субстантивне словосполучення 3 безприйменниковим керуванням (відношення -означувально-об' єктивні); з прийменниковим керуванням відношення - ті ж с, С2 косо? С, « С2 чого ? (Р.п.) чи для кого? чого? с, * С2 (Р.п. з прийменником) Товарообмінне обмін товарів. Бензобак -це бак для бензину.

Позначені та описані 13 класів семантичних розшифровок дозволяють розкрити смисловий відтінок фактично будь-якого слова, яке включає у себе дві основи. Причому вони дозволяють зробити перехід від складного слова до словосполучення певного тип)г, що наглядно ілюструє протікання дериваційного процесу при появі структур такого типу. При визначенні значенім деривата шляхом представлення його двома словами (словосполученням) необхідно звернути увагу на зв’язки - відношення, які стикують їх. Ці зв’язки класифіковані як семантичні перехідні змінні (Xj (маєтея на увазі перехід від двухосновної конструкції до словосполучення) - СПЗ. Позначені класи СПЗ дозволяють вирішити одну з найважливіших підзадач щодо формалізації складного слова, а саме: в залежності від обраного зв’язку проводити подальше редуціювання семантичних характеристик деривата, oq - <‘той, хто’>, оц - <‘е’>,

а2 - <‘ той, хто мас>, а5 - <‘то, що’>,

aj - <‘той, що відноситься до’>, аб - <Чарактеріізуєтьси’>,

а7 - <‘мае’>.

При формалізації складнословних конструкцій, які мають дві основи (дві кореневі морфеми), особливу увагу приділено їх семантичному наповненню. Але для побудови адекватної словоутворювальної моделі необхідно виявити закони сполучуваності морфем в похідному слові. Тобто потрібно виявити, які виробляючі основи можуть бути використані при одержанні нового сло-воутворюючого форманта, а які - ні, та які лекеико-семантичні гіти сполучуваних основ і який характер протікання морфологічних процесів. Для створення повного уявлення щодо сполучуваних властивостей морфем, розв’язана задача знаходження тих типів обмежень (граматичного та семантичного плану), які зашкоджують сполученню дериваційних морфем в словоформі. Для цього спочатку впроваджується предикат G (І, g) - узагальнений граматичний предикат синтагматики, який описує обмеження загальної граматичної сполучуваності основ

G(l, q) = G(lc,q°)vG{ln ,qc)\'G(lu,qc)\/G(l"

(°)

vG(lsn, qc)\f vG(/c,îa)vG(iB,îa)v(;(/"!Î;;i,)vG(/",îa)v vG(/c\<7£î).

У формулі (8) використовується ціле сімейство предикатів загального вигляду G(l, g), кожний з яких буде вірний, якщо граматичний клас 1-ї основи Si складного слова L сполучається з граматичним класом 2-ї основи S'y.

G(l,q) =

J, якщо граматичний клас основи S j спо -

лучасться граматичним класом основи S ?, (9)

0. у протилежному випадку.

Другий компонент моделі обмежень семантичної сполучуваності основ-узагальнений семантичний предикат синтагматики:

T(Lsu>Ls2/) =

1, якщо ЛСГ Lsjj і is j і семантично

погоджуються між собой, (Ю)

0, у протилежному випадку.

Повернемося до моделі сполучуваності основ - до її другої частини: приватної семантичої моделі синтагматики. Предикат 2 = (^.^д) - приватний семантичний предикат існування, який служить для того, щоб можна було визначити чи дійсно існує ця словоформа в лексиці чи ні. При цьому предикат (11) доречний, коли заздалегідь (за допомогою предиката Т(1хц, /..V2])) виявлено, сполучаються чи ні перша та друга ЛСГ.

Г І, якщо е лексиці існує слово, знай -Z(S{ ,.S\ J = < депе шляхом сполучення двох основ, (іі)

р "q [О, у протилежному випадку.

де р -1, к + /, с[ -1, V -і- IV (к, р - кількість елементі в у двох підмножинах М1 та М* 1-х основ 5/, а V, і*• - кількість елементів у двох підмножинах Nі та Л'* множини 2-х основ .У?). Умова семантичної сполучуваності парадигмативних груп

в(5„.?2) = ТШг ,,іу27)л1(51р,8ц), (12)

На основі того, що синтагматичне відношення між 2 основами у складному слові має і граматичні (8), і семантичні (12) обмеження сполучуваності, знайшли предикат, однозначно виявляючий можливість існування слова в лексиці

ІГ/(^,^)-С(Лд)лОС?,,52)-

((}(І.ЧС) V СНІ^Г1)) А Щл,,, Х52;) А ОД р, 82д\

де ¡¥(81, Б2) - синтагматичне відошення між двома похідними основами, що утворюють складне слово ¿.

У п’ятому розділі наведене практичне застосування результатів дослідження дисертаційної работа. А саме: розроблена система, яка здійснює представлення речення природної мови у виляді граф-схеми та формули лінгвістичної алгебри. Крім того, наведені можливості використання комп’ютерного словника економічних термінів при розробці лінгвістичного інтерфейса економічних експертних систем, а також в ході навчального процесу. Також створена комп’ютерна програма, яка реалізує методику виявлення можливості існування (появи) двохосновних іменників української та російської мов.

ОСНОВНІ РЕЗУЛЬТАТИ ТА ВИСНОВКИ

В дисертації здійснена розробка комплексу алгебро-логічних засобів формалізації різних лінгвістичних структур природної мови у вигляді набору математичних моделей.

1. Розроблені теоретичні передумови для доповнення класичної алгебри кінцевих предикатів низкою тотожностей, що робить її більш ефективною для використовування при описі речень, словосполучень та окремих словоформ,

2. Для переходу від природно мовних висловлювань до математичних частин мови (іменник, прикметник, похідні та непохідні дієслова, порядкові числівники, прийменники, прислівники) представлені у вигляді кінцевих предикатів різних порядків; а прості розповідні речення природної мови перетворені у вигляді формул лінгвістичної алгебри.

3. Здійснена первинна формалізація семантики складного слова; для чого двохосновні іменники російської мови розділені на різноманітні семантичні класи; промодельовані морфемні структурно-семантичні відношенім в цих класах; знайдено набір семантичних розшифровок, які використовуються при аналізі дериваційних процесів у лексемах.

4. Створена математична модель синтагматичних обмежень сполучуваності кореневих морфем у словах з двома основами.

5. Розроблені алгоритми, реалізуючи побудовані математичні моделі, апробовані їх обчислювальні властивості.

6. Побудовані програмні продукти, в основі яких лежать розроблені алгоритми, що є практичним застосуванням результатів дослідження.

ПУБЛІКАЦІЇ ЗА ТЕМОЮ ДИСЕРТАЦІЇ

1. Бавыкшг В.Н., Ревєнчук И.А., Стороженко А.В. Применение метода логических определителей к решению систем алгебро-логических уравнений// АСУ и приборы автоматики. - 1997. ~№ 105. - С.82-86.

2. Баталин A.B., Дударь З.В., Стороженко А.В., Шабанов-Кушнаренко Ю.П. О лингвистической алгебре // Радиоэлектроника и информатика. -1998. -№4.-С.101-109.

3. Стороженко А. В. Алгебро-логаческне средства формализации сочетаемости синтагматических отношений сложнословных конструкций // Радиоэлектроника и информатика. - 1998. - №2(3). - С. 108-109.

4. Четвериков Г.Г., Стороженко А.В., Рсвенчук И.А., Бавыкин В.Н, Принципы построения отдельных компонентов к-значных структур искусственного интеллекта // Радиоэлектроника и информатика. - 1998. - № 2(3). -С.88-90

5. Бондаренко М.Ф., Бавыкин В.Н., Богданова Л.Г., Стороженко А.В., Четвериков Г. Г. Применение автоматизированных информационных библиографических систем при совершенствовании учебного процесса в технических вузах // Материалы 2-ой Международной научно-методической конференции ‘Интеграция образования, науки и производства’. - Луцк. - 1996. -С.27.

6. Бондаренко М., Бавикін В., Коноплянко 3.. Стороженко О., Четвериков Г. Моделювання лінгвістичних зв'язків елементів фонетичного га морфологічного рівня української мови в системах автоматичного розпізнавання сигналів // Матеріали 3 Всеукраїнської лгіжнародної конференції ‘Оброблення сигналів і зображень та розпізнавання образів “ Укроб-раз-96\ - Київ, 1996.-С. 116-117.

7. Стороженко А.В. К вопросу об использовании зарубежных автома-

тических информационных библиографических систем (АИБС) на примере голландской системы VUB1S: достоинства и недостатки // Материалы 3-го международного семинара 'Актуальні питання впровадження інформаційних технологій у документально-комунікаційній сфері’. - Харьков, 1996. - С.56-57. '

8. Стороженко А.В., Шаронова Н.В. Обобщенная математическая модель сложных слов русского языка как часть лингвистического обеспечения автоматизированных информационных систем // Материалы 2-ой Международной конференции ‘Теория и техника передачи, приема и обработки информации’. - Харьков. 1996. - С.226,

9. Стороженко А.В., Четвериков Г.Г. Об одном подходе к построению современных естественноязыковых систем искусственного интеллекта// Материалы 5-ой Международной конференции ‘Теория и техника передачи, приема и обработки информации5. - Харьков, 1999. - С.442-444.

10. Рублинецкий В.И., Стороженко А.В., Шаронова Н.В. Измерение пословной несхожести параллельных текстов в связи с машинным переводом. - Ден. в ГНТБ Украины, № 1608. - Ук 95 - 1995. - 21с.

АНОТАЦІЯ

Стороженко О.В. Алгебро-логічні моделі семантик» текстів природної »мови. - Рукопис.

Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 01.05.02 - математичне моделювання та обчислювальні методи. - Харківський державшій технічний університет радіоелектроніки, Харків, 2000.

У даній дисертаційній роботі на базі алгебри кінцевих предикатів розроблені алгебро-логічні моделі, що призначені для формалізації текстів природної мови. Частішії мови природної мови представлені в предикативному вигляді, введені операції кон’юнкції, диз’юнкції і заперечення, за допомогою яких здійснена реалізація трьох типів зв'язку словоформ в словосполученнях і реченнях. Розглянута структура словоформи з двома основами, побудована математична модель, що описує загальний вигляд складного слова за допомогою деяких тотожностей лінгвістичної алгебри.

На основі отриманих в ході даної дисертаційної роботи теоретичних результатів був розроблений програмний продукт, що здійснює представлення речень природної мови у вигляді граф-схеми і формули лінгвістичної алгебри. Розроблені моделі використані при створенні комп'ютерного словника економічних термінів, як складові частини лінгвістичного інтерфейсу ек-спсртшіх систем, а також в навчальному процесі.

Ключові слова: штучний інтелект, формалізація природної мови, системи подання знань, лінгвістична алгебра, математична модель, предикатна модель, словосполучення, просте речення.

АННОТАЦИЯ

Стороженко А.В. Алгебро-логическне модели семантики текстов естественного языка. - Рукопись.

Диссертация на соискание ученой степени кандидита технических наук по специальности 01.05,02 - математическое моделирование и вычислительные методы. - Харьковский государственный технический университет радиоэлектроники, Харьков, 2000.

В данной диссертационной работе на базе алгебры конечных предикатов разработаны алгсбро-логические модели, использование которых приводит к формализации текстов естественного языка. Описаны основные формулы и тождества алгебры конечных предикатов. Этот аппарат дополнен введенными понятиями конечных предикатов и конечных отношений произвольных порядков, понятием моделей, операциями над ними.

Получила дальнейшее развитие гипотеза о тождественности естественного языка с некоторой предикативной алгеброй, предложен общий вид математического и естественноязыкового выражения. Все части речи естественного языка представлены в предикативном виде, введены операции конъюнкции, дизъюнкции и отрицания, при помощи которых осуществлена реализация трех типов связи словоформ в словосочетаниях и предложениях. Произведено представление простого повествовательного предложения естественного языка в виде граф-схемы. Осуществлен переход от графического представления к формуле лингвистической алгебры, и наоборот. Для расширения инструментария лингвистической алгебры введены три закона: сужения, аддитивности и однородности, а также понятие юнктивной операции (юнкции) и некоторые ее свойства

Рассмотрена структура словоформы с двумя основами и построена математическая модель, описывающая общий вид сложного слова с помощью некоторых тождеств лингвистической алгебры. На основании анализа лингвистических отношений между главным и зависимым словом в словосочетании сформированы 14 групп семантических расшифровок. Они используются для раскрытия семантических оттенков в рассматриваемых объектах исследования - сложных словах.

Выделены 7 различных семантических переменных-связок ос;, в зависимости от которых происходит редуцирование содержат«! лексем. Произведено разделение всех основ слов из рассматриваемой предметной области по лексико-семантическим группам с целью более углубленного изучения семантики форманта на морфемном уровне. Построена математическая модель, учитывающая и грамматические, и семантические ограничения сочетаемости корневых морфем в слове, содержащим две основы.

На основании полученных в ходе данной диссертационной работы теоретических результатов был разработан программный продукт, осуществляющий представление предложения естественного языка в ввде граф-схемы и формулы лингвистической алгебры.

Показаны возможности использования компьютерного словаря экономических терминов при разработке лингвистического интерфейса экспертных систем, а также в ходе учебного процесса. Создан программный продута, реализующий методику определенна возможности существования (образования) двухосновных существительных украинского и русского языков.

Ключевые слова: искусственний интеллект, формализация естественного языка, системы представления знаний, лингвистическая алгебра, математическая модель, предикатная модель, словосочетание, простое предложение.

ABSTRACT

Storozhenko A.V. Algebraic and logic models of natural language texts semantics - Manuscript.

Thesis for a candidate's degree in speciality 01.05.02 - mathematical modeling and calculating methods. - Kharkov State Technical University of Radioelectronics, Kharkov, 2000.

The thesis presents algebraic and logic models based on finite predicates algebra designed for natural language texts formalization. Parts of speech of natural language arc represented in a predicative form and operations of conjunction, disjunction and inverse operation are introduced. These operations promote realization of the three types of word-forins links in w ord combinations and sentences. Structure of word-forms with two bases is considered and mathematical model describing general form of a complex word using certain identities of linguistic algebra is formulated.

Based on theoretical results obtained in the course of the present research the software was developed that converts representation of natural language sentences into the form of graph-schcme and the formula of linguistics algebra. The models developed are used to develop computer dictionary of economic terms as a component parts of expert system linguistic interface as well as in the teaching process.

Key words: artificial intelligence, formalization of natural language, knowledge representation systems, linguistic algebra, mathematic model, predicative model, word’s combination, simple sentence.

/