автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.06, диссертация на тему:Модели и алгоритмично-программное обеспечение лексикографических систем
Автореферат диссертации по теме "Модели и алгоритмично-программное обеспечение лексикографических систем"
НАЦІОНАЛЬНА АКАДЕМІЯ НАУК УКРАЇНИ УКРАЇНСЬКИЙ МОВНО-ІНФОРМАЦІЙНИЙ ФОНД
ь УДК 658.012.011.56
ШЕВЧЕНКО ІГОР ВІКТОРОВИЧ
МОДЕЛІ ТА АЛГОРИТМІЧНО-ПРОГРАМНЕ ЗАБЕЗПЕЧЕННЯ ЛЕКСИКОГРАФІЧНИХ СИСТЕМ
Спеціальність - 05.13.06 Автоматизовані системи управління та прогресивні інформаційні технології
Автореферат дисертації на здобуття наукового ступеня
г /
кандидата технічних наук /. , - / ^
Дисертацією є рукопис.
Робота виконана в Українському мовно-інформаційному фонді
Національної академії наук України.
Науковий керівник: доктор технічних наук Широков Володимир
Анатолійович, директор Українського мовно-інформаційного фонду НАН України
Офіційні опоненти: академік НАН У країни, доктор технічних
наук, професор Скурихін Володимир Ілліч, заступник директора Міжнародного науково-навчального центру інформаційних технологій та систем ЮНЕСКО/МПІ, НАН України та Міносвіти України
кандидат технічних наук Рєпін Іван Іванович, заступник директора з наукової роботи Державного науково-дослідного інстиіуту • інформатизації та моделювання економіки
Провідна установа: Національний технічний університет "Київський політехнічний інститут" Міністерства освіти та науки України, кафедра автоматизованих систем обробки інформації та управління
Захист відбудеться " Щ " 'IfUj^rCtZ 2000 року о W год. на засіданні спеціалізованої вченої ради Д26.165.01 по захисту дисертацій на здобуття наукового ступеня доктора (кандидата) наук у Національній бібліотеці України імені В.І.Вернадського за адресою: м. Київ, 03039, просп. 40-річчя Жовтня, 3.
З дисертацією можна ознайомитися в Національній бібліотеці України ім.
В.І.Вернадського (м. Київ).
Автореферат розіслано "{0” р.
Вчений секретар
спеціалізованої ради
кандидат економічних наук Іарьов A.A.
Проблематика і актуальність дослілжеіптя. Досвід експлуатації інформаційних технологій підтверджує, що їх ефективність безпосередньо залежить від двох основоположних факторів: а) рівня іителекіуальності; б) зручності і гнучкості інтерфейсу - тобто засобів спілкування користувачів з комп’ютерними системами. Останнім часом загальновизнано, що зазначені чинники ефективно можуть бути реалізовані тільки на шляху застосування в комп’ютерних системах програмних засобів, орієнтованих на використання природної мови.
Для всіх світових мов (насамперед англійської, французької, німецької, та російської) протягом останнього десятиріччя була створена основна гама засобів обробки природномовних текстів (natural language processing). Натомість у відповідних ділянках україномовної інформатики досі існують значні прогалини. У низці досліджень, проведених в Українському мовно-інформаційному фонді НАН України, переконливо продемонстровано, що досягнення сучасного рівня у природномовних інформаційних технологіях можливе лише на шляху розвитку національної комп’ютерної лексикографії. Завдання для української комп’ютерної лексикографії на принциповому рівні значною мірою розв’язані.
Проте, існує ціла низка конкретних проблем у царині україномовних комп'ютерно-лінгвістичних технологій, які ще підлягають вирішенню. Це, зокрема, дослідження на матеріалі української мови морфологічних, лексико-семантичних та лексикографічних моделей, створення алгоритмів та програмних засобів інтелектуальної обробки і представлення інформації в лексикографічних системах, розробка та удосконалення природномовно-орієнгованих інтерфейсів та засобів доступу до інформації, представленої яку суто текстовій, такі в струкгурованій формі.
Необхідною вимогою до зазначених засобів обробки мови є те, щоб вони були репрезентативними - представляли відповідні мовні явища у їх реальному обсязі, а не тільки на окремих, хоч і показових прикладах. З цієї вимоги випливає і обсяг нашого дослідженню областю моделювання та алгоритмічного впливу якого виступають лексикографічні масиви в декілька мільйонів словоформ. Розв’язання вказаних проблем ускладнюється тим, що імпорт відповідних засобів і технологій неможливий, оскільки вони є дуже орієнтованими на конкретну мову. Через цю ж причину неможливо й у повній мірі скористатися закордонним досвідом при створенні вітчизняних засобів опрацювання природної мови.
З викладеного незаперечно випливає актуальність теми дисертації - дослідження і розробка моделей та алгоритмічно-програмної бази опрацювання української мови на лексичному рівні. Сформульоване завдання ми вважаємо необхідною умовою для забезпечення повноправного представлення української мови в середовищі всесвітніх комп’ютерних комунікацій.
Таким чином, основну науково-технічну проблему, на розв’язання якої спрямоване дисертаційне дослідження, ми бачимо в забезпеченні адекватного інформацій-
но-технологічного статусу українська мови в світовій мовній ієрархії, її інтеграції до всесвітнього мовно-інформаційного середовища шляхом розробки моделей та алгоритмічно-програмної бази опрацювання української мови на лексичному рівні.
Зв’язок дослідження з науковими програмами, планами, темами. Результати дисертаційного дослідження одержані в процесі виконання загальнодержавної та відомчої тематики науково-дослідних робіт і рішень Уряду України, а саме:
1. Програми Державного комітету України з питань науки і технологій 8.3 «Лінгвістичні засади та інформаційно-комп’ютерне забезпечення відродження української мови»;
2. Наукових тем відомчої тематики Національної академії наук України:
2.1. Комп'ютерно орієнтовані словники української мови;
2.2. Теорегико-методологічні основи та програмне забезпечення автомати-зован ої обробки українських текстів;
23. Створення фундаментального інформаційного архіву в системі машинного фонду української мови;
Мета і завдання дослідження. Метою дослідження є розробка і створення адекватних формальних моделей, алгоритмічної системи і відповідної програмної бази для обробки морфологічних, лсксико-семантичних та лексикографічних структур української мови.
З цього випливають такі завдання дослідження:
- вивчення лексикографічних структур україномовних лексикографічних систем та розробка алгоритмічного апарату їх моделювання і використання в системах обробки текстів;
- побудова парадигматичної лексикографічної моделі української мови як ключового елемента будь-якої системи обробки українських текстів;
- розробка моделі та алгоритмічно-програмного комплексу автоматизованої лексичної картотеки;
- розробка програмних засобів для побудови україномовних словникових систем нового покоління;
- створення на основі розвиненої методології і технології конкретних словників (як традиційних, так і цифрових).
Об’єктом дослідження є лексична система української мови як необхідний комунікативний компонент людино-машинних систем. Лексика природної мови з її морфологічними особливостями та семантичною інтерпретацією являє собою систему, яка дозволяє розробку формальних моделей, що допускають конкретну реалізацію у вигляді чітких алгоритмів.
Предметом дослідження є моделі, алгоритмічні аспекти та програмні реалізації морфологічних, лексико-семантичних та інших лексикографічних структур, притаманних природномовним системам.
з
Методом дослідження є комп’ютерне моделювання лінгвістичних і лексикографічних явищ. Систематично використовується структурна теорія лексикографічних систем, формальне представлення мовного матеріалу та трансформація його до струкгурованих інформаційних систем. Формальна репрезентація об’єктів мови дає можливість послідовного використання методів алгоритмічного аналізу з подальшою їх програмною реалізацією.
Наукова иовизпа. Запропоновано новий метод класифікації лексичного корпусу української мови за допомогою введеної автором функції п арадигматизації. Для кожної частини мови побудовані множини словозмінних параметрів, реалізація значень яких щодо конкретних лексем задає опис їх словозмінної парадигми.
Одержано в явному вигляді найповнішу словозмінну класифікацію української лексики обсягом близько 140000 слів, розбитих на 1435 словозмінних класів.
Запропоновано формальне визначення поняття парадигматичного класу, створена алгоритмічно-програмна база парадигматизації, лематизації, побудови транскрипції, разом з верифікацій ними комп’ютерними лексичними масивами.
Побудовано програмну систему словотворчого гніздування в українській мові і одержано в алфавітно-гніздовій формі комп’ютерний масив української лексики обсягом понад 140 тисяч одиниць.
Розроблено модель та алгоритмічно-програмну систему сегментування українських текстів на мікроконтексти, а також схему її застосування у технології створення нової версії фундаментальної академічної лексикографічної системи "Словник української мови" та в системі каргкування Біблії "СКАРБ".
Практична пінність. Застосування розроблених моделей і алгоритмічно-програмної бази до академічної лексикографічної проблематики дозволило одержати ряд практично цінних результатів.
Серед них слід відзначити створення і випуск 2-го видання Орфографічного словника української мови (Київ: Довіра, 1999), створення комп’ютерних словників: парадигматичного, орфоепічного, розробка технології індексації лексикографічних масивів на основі програмної реалізації алгоритмів парадигматизації та лематизації. Система автоматичної побудови транскрипції була використана при укладанні принципово нового академічного Орфоепічного словника української мови у 2-х томах. Вищезазначені моделі, методи і засоби використовуються, як базові, при створенні, комплексної комп’ютерної лексикографічної системи, яка інтегрує функції парадигматизації, транскрипції, синонімії, антонімії та подання фразеологічної системи української мови.
Розвинена автором алгоритмічно-програмна база лексичного картографування склала основу для розробки автоматизованої лексичної картотеки - необхідного елемента технології створення фундаментальних лексикографічних систем і особливо -нового фундаментального багатотомного Словника української мови.
Створена автором модель та система словотворчого гніздування в українській мові складає універсальну основу української частини при укладанні українсько-іншомовних словників та лексикографічного забезпечення систем українсько-іншомовного машинного перекладу.
Апробапія роботи. Основні положення та результати дисертаційного дослідження доповідалися на 3 міжнародних та ряді місцевих конференцій, у тому числі: міжнародній науковій конференції "Проблеми створення машинних фондів мов" (Київ, 1991 p.), на IV міжнародній конференції “Бібліотеки та асоціації у світі, що змінюється: нові технології та нові форми співробітництва” (“Крим-9б"), Міжнародній правописній конференції (Київ, грудень 1997 p.), пленумі Науково-коорданаційної ради "Проблеми розвитку мов і практика мовної діяльності" (Київ, травень 1995 p.), численних семінарах Українського мовно-інформаційного фонду НАН України,.
Структура роботи. Дисертація складається зі вступу, трьох розділів, в яких викладено основний зміст, висновків, додатків та списку використаної літератури.
У першому розділі "ТЕОРЕТИКО-МЕТОДОЛОПЧНІ ОСНОВИ ЛЕКСИКОГРАФІЧНИХ СИСТЕМ" робиться аналітичний огляд існуючих підходів та результатів у галузі комп’ютерної лексикографії; докладно аналізуються відомі програмні засоби та підходи, що стосуються розглядуваної тематики.
У другому підрозділі першого розділу викладено необхідні для подальшого дослідження факти з структурної теорії лексикографічних систем.
Третій підрозділ присвячено побудові структурної теорії морфологічної лексикографічної системи української мови. Зазначена система будується у складі двох підсистем, а саме: орфографічної, яка у подальшому слугуватиме носієм парадигматичного опису української лексики, та орфоепічної, орієнтованої на підтримку процесів інформаційного представлення явшц вимови та наголосу в українській мові.
Використовуючи цю мікроструктуру, конструюємо модель морфологічної лексикографічної системи української мови у вигляді певної елементарної лексикографічної системи:
ELS = { S0 , V(L) , (Н , А, X, р), 2 } , де V(L) з V(U) = {Л(У), P(U)} (літерою U позначено українську мову), причому:
1. A(U) = So(U) і А(х) = х, х е Sq(U) (1)
де Sq(U) - множина слів української мови в канонічній (вихідній) формі;
2. P(U) - множина парадигматичних показників: для кожного х відповідна Р(х) є спеціальним чином організована послідовність флексій або квазіфлексій. Таким чином, системна роль правої частини в морфологічній системі зводиться
до зіставлення кожній реєстровій одиниці х особливостей її словозміни, завдяки чому будується повна парадигма [і];
3. Оператор Н об'єднує ліву та праву частини морфологічної системи в єдину словникову статтю:
Н (А (х) ) = Р (х), V (х) = { А (х), Н (Л (х)) }.
В комп'ютерній лексикографічній системі ми будуємо явний вигляд оператора Н, який відображає реєстрову одиницю х на її повну парадигму [х]:
Н: х -» [х]. (2)
4. В моделі морфологічної системи множину міжетатейних відображень А та структуру 7. вважаємо тривіальними; розглвдові структури р буде присвячено подальший виклад.
Оператор Н представляється сукупністю трьох взаємодіючих блоків:
GR ID
PAR
ALG Р(х)
Блок граматичної ідентифікації набуває вигляду дерева
Ы в и и
де л - вказівка на людину або людиноподібну істоту, т — на тварину, а — на “анімізовану” неістоту, и - на інше; стрілками позначено відношення приналежності.
У парадигматичному блоці PAR реєстрова одиниця набуває вигляду, адаптованого для парадигматичного аналізу:
х = і(х) * <о(х), (3)
де га(х) - квазі флексія слова х довжиною до п'яти літер, а зірочкою позначено конкатенацію. Інформаційними змінними, що параметризують елементи парадигми, є граматичні категорії, набір та області визначення яких залежать від частини мови.
Далі в структурі бази даних вводиться допоміжне поле <PART> з метою автоматизованого визначення належності слова до певної частини мови. Класифікація А(х) за параметром <PART> виконується автоматично залежно від Р(х) та декількох останніх літер вихідної форми слова. Формальною мовою це еквівалентно побудові функції від двох змінних о = к>(х) та Р = Р(х) зі значеннями у множині назв частин мови. Отже, структура запису ORF.P. модифікованої бази даних набуває вигляду:
б
ORF.P. = { WORD, PART, FIN } (4)
Для автоматичної побудови правил словозміни за формальними ознаками у межах частини мови, будуються класи, які групують реєстрові одиниці, унікально ідентифіковані за словозмінною формою - парадигматичні класи. Формула (3) модифікується до вигляду:
х = с(х) * s(x) * f(x). . (5)
де с(х) - незмінна частина, s(x>- квазісуфікс, f(x) - квазіфлексія.
Кожна змінювана частина мови w має свій фіксований набір граматичних значень wi, w2, ... wp, ... wq, кожному з яких відповідає словоформа (або в загальному випадку набір словоформ) для кожної лексеми, що належить до частини мови w. Граматичне значення являє собою перетин значень граматичних категорій, що є словозмінними для відповідної частини мови. Форма лексеми X у деякому граматичному значенні wp являє собою, таким чином, кортеж словоформних варіантів, що можуть вживатися у граматичному значенні wp причому вказаний набір для конкретного граматичного значення може бути й порожнім:
. Хр= {xpi,xp2,...,x,*},t>0. (6)
Вважаємо, що дві нетотожні лексеми х та х1 мають однакову форму словозміни в деякому граматичному значенні, якщо для кожної словоформи з наборів
Хр ~ , Xpv,..., Xpt} ТЕ % р— pl» X р2,- , X ps,..., X pt} , де.
Хр, = c(Xpv) * s(Xpv) * f(Xpv) та x‘pv = c(x‘pv) * s(x'pv) * f(x‘pv), 1< V > t, Істинними є рівняння
s(Xpv>- s(x'pv); f(xpv)=f(x1pv) (7)
З цього випливає, зокрема, що лексеми, які мають однакову словозмінну форму в деякому граматичному значенні, повинні мати однакову розмірність набору словоформних варіантів у цьому значенні, а також, в разі наявності різних варіантів (t>l), послідовність цих варіантів {хр1, хрз,..., xpv,..., XpJ та {х*рі, xlje,..., x'ps,..., х'р,} у словник мусить доконечно збігатися для х та х1 (на змістовному рівні менший номер відповідає більш переважно вживаним варіантам), оскільки словоформні кортежі не є еквівалентними щодо операції комунікативності. Сукупність наборів словоформ конкретної лексеми в усіх граматичних значеннях утворює словозмінну парадигму лексеми {х}: {х} = {хі. Xi... Хр....Х,}
Визначення. Парадигматичним класом називаємо сукупність лексем
©к= {Хі,Х2,...,Х(,... Xj,... Х„}, (8)
якщо для будь-яких Xj та х,, таких , що Хі. Xj с ©к, і < п, j < п
та якщох, є X) є т2,то\Ні = W2, для кожного з словоформних варіантів кожного з наборів %іРта у_№, відповідно до (6), виконуються рівняння (7).
Другий розділ "АЛГОРИТМІЧНО-ПРОГРАМНІ РЕАЛІЗАЦІЇ ФУНКЦІЙ ЛЕКСИЧНОГО РІВНЯ ДЛЯ УКРАЇНОМОВНИХ ЛЕКСИКОГРАФІЧНИХ СИСТЕМ" присвячено побудові явного вигляду парадигматичної класифікації української мови та алгоритмічно-програмній реалізації оператора парадигматизації (перший підрозділ).
Формули (2, 5-7) визначають оператор (відношення) парадигматизації, який ставить у відповідність словниковій одиниці д: набір словоформ - її граматичних значень, і набуває такого вигляду:
І7(х)= { х,, Ху..Хп(х)}г[х] (9)
Якщо дві лексеми мають однаковий набір квазісуфіксів і квазіфлексій для відповідних граматичних значень, а всі їх словоформи відрізняються лише незмінною частиною, вважаємо, що лексеми належать до одного типу словозміни (до одного парадигматичного класу). Тобто, якщо:
77(х‘)= { х11, х*2.. х'п(хІ) } і П(х)= { х2], х22. х2п(х2)},
то х'к^х1)* вк *ГК і х2к = с(х2)*5к* Ііс, (10)
де Як з в к (х1) = бк (х2) і ГкаГк(х1) = Гк(х2), к=1, 2,. . , п.
Проведений нами аналіз словозмінювання в українській мові дає підстави для визначення системи параметрів, якою характеризується оператор парадигматизації (9), а саме:
Пп = {ря, V, оЬ, аі^ сІеГ, ¡псі}, де (11)
рз - покажчик частини мови, що приймає значення: і - іменник, д -дієслово, п - прикметник, з - займенник, ч - числівник;
V - узагальнений тип відмінювання для лексем конкретної частини мови; оЬ - { оЬ1, оЬ2,... } - множина обов’язкових параметрів словозміни; ак - тип змін в основі слова (чергування, вставки, спрощення у квазісуфіксах);
(ІеГ - тип дефектності парадигми (приймає нульове значення, якщо дефектність відсутня);
іші - параметр, який визначає індивідуальні відмінності словозміни певної лексеми у деяких граматичішх значеннях.
Для іменника параметр V означає найбільш узагальнений тип парадигми (“відміну”). Цих “відмін” виділено п’ять.
Обов’язковим параметром оЬ для іменників виступає “група” відмінювання, що визначається пршанцевимим приголосними, які входять в основу слова. Цей параметр може набувати одне з п’яти значень: {гцм, й,ш,р}.
Для іменника виділяються принаймні ще три обов’язкові параметри: рід, денотат і генітивна флексія. Обов’язковим параметром словозміни є тип
денотату іменника. Параметр ob? =dn має такий набір можливих значень: {л, т,
а, н), де л - людина або людиноподібна істота, ш - тварина, а - “анімізована” неістота, н - інше. Від типу денотата, тобто об’єкта, який позначається іменником, залежить форма знахідного відмінка множини (а для іменників чоловічого роду другої відміни також і однини), яка збігається або:
з формою родового відмінка відповідного числа - для іменників, що позначають людей або людиноподібні істоти (інженер, янгол, селянка, циганча), або:
з формою називного відмінка відповідного числа, якщо іменник позначає неістоту (будинок, еволюція, знаряддя).
Параметр ob2 =gn є обов’язковим тільки для деякої частини іменників, а саме іменників чоловічого роду, що належать до другої відміни.
Параметр gn визначає форму родового відмінка однини і може приймати одне з трьох значень: -а, -у та обидва варіанти -а та -у.
Параметр alt визначає тип позафлексійних змін слова у процесі його відмінювання. Теоретично, областю припустимих значень цього параметра можуть бути будь-які відозміни послідовності літер в слові.
Параметр ай являє собою четвірку ali = {alt,, alt2, alt3, dis}, де:
alt і -послідовність літер, що складають квазісуфікс у вихідній формі слова, тобто бере участь у позафлексійних змінах при відмінюванні;
ай2 - послідовність літер, яка заміщує ай, у тих найближчих за вихідною словоформах у парадигмі, в яких відбувається зміна основи;
alt3 - квазісуфікс, що заміщує ай, у деяких інших словоформах, про які відомо, що зміни основ в цих словоформах може мати місце перехід ah, —/ all2, при цьому в загальному випадку а!і3 може й дорівнювати ali, або ak2, що означатиме відсутність чергування третього ступеня (утворення третього варіанту основи слова) для цієї лексеми;
dis - формула розподілу змін основи слова за граматичними значеннями. Наступним параметром словозміни іменників є def, значеннями якого стають ті граматичні субкатегорії, в яких лексема не вживається. Найпоширенішими для іменників є типи дефектності парадигми, при яких слово не вживається в одному з граматичних чисел. Невживаність слова у множині позначається значення параметра def=sg (singular — однина), зокрема, для слів: борошно, щастя, краса, судоустрій тощо.
Необов’язковий параметр ind визначає особливості (рідкісні або виняткові) відмінювання лексеми в окремих граматичних формах. Значення параметра являють собою набір трійок: ind = {gr,a(l)J}, де
gr - граматичне значення,
а(1) - конкретна форма відхилення від стандартної словозміни в цьому значенні,
f - факультативність відхилення; останній показник набуває значення “ех”, якщо це відхилення є обов’язковим і тим самим виключає регулярну форму (exclude - виключати) та значення “іпс”, яйцо нестандартна форма вживається поряд зі стандартною й тям самим “включається” в парадигму (include -включати).
Повний набір параметрів визначає тип парадигми, тобто набір квазісуфіксів та квазіфлексій в усіх граматичних значеннях. Також за допомогою словозмінних параметрів визначається незмінна частина слова за його вихідною формою. Отже, застосування параметричної функції словозміни до конкретної лексеми дає можливість побудови словозмінної парадигми.
У такий спосіб розроблено систему параметрів словозмінного типу для кожної із змінюваних частин мови та викладена автоматизована процедура з’ясування значень словозмінних параметрів із застосуванням орфографічного словника та залученням експертних знань. Розглянуто засади парадигматичної класифікації словозміни української лексики, в якій на основі тексту орфографічного словника кожному слову ставиться у відповідність мнемонічний ідентифікатор, що репрезентує .певний словозмінний тип з урахуванням чергувань в основі слова (чергування, спрощення, вставки), а також неповноти та інших особливостей парадигми. Загалом за допомогою наведеної класифікації виділено 1435 парадигматичних типів.
Далі в другому розділі викладено засади алгоритмічно-програмної реалізації оператора лематизації L(x), L: х —» Цх), який ставить у відповідність текстовій словоформі (ланцюжку символів х) її вихідну форму Цх). Як правило, є тільки один L(x) (за винятком рідкісних випадків збігу морфологічної та синтаксичної омонімії).
Зведення до вихідної (словникової) форми зумовлене багатоваріантністю похідних форм слова. Процедура зводиться до заміни змінної частини (закінчення) словоформи в тексті змінною частиною ch=*suf+*n (яка включає квазісуфікс та квазіфлекеію) вихідної форми з подальшою перевіркою наявності слова в мові та належності його до парадигматичного типу, що дозволяє застосований тип заміни. Як було показано вище, результатом парадигматичного аналізу певної мови є функція, яка ставить у відповідність кожному слову набір його похідних форм, або іншими словами, приписує йому належність до певного парадигматичного типу. Іншим результатом застосування вищезгаданої парадигматичної функції є перелік лематизаційннх переходів ch - chA, де ch -довільна квазіфлексія, тобто змінювана частина деякої форми, вихідної чи
похідної; сЬл - квазіфлексія вихідної форми, що відповідає словоформі з квазіфлексісю сЬ, наприклад:
ємо - ти (співаємо - співати); шу - сити (ношу - носити);
га - в (четверга - четвер); лять - ити (потраплять - потрапити);
ого -ий (великого - великий, сьомого - сьомий).
Тому застосування списку лематизаційних переходів, що мають вигляд сЬ -сЬ* не є достатнім для адекватного автоматичного визначення вихідної форми довільного слова в тексті, позаяк деяким квазіфлексіям сії відповідають кілька різних квазіфлексій сЬ*, що визначають вихідну форму слова. Наприклад, у переліку лематизаційних переходів маємо, зокрема, такі формули: с - ти (скажімо, для дієслова “копати - копає”) та є - вати (“малювати - малює”).
Автоматичне зняття подібних неоднозначностей для деяких словоформ забезпечується за допомогою орфографічної лексикографічної системи. Процедура перевірки полягає в заміні наявної в текстовій формі квазіфлексії сЬ на сії*. Для словоформи “копає” знаходимо у словнику лексему “копати”, але не “*копавати”. Проте, застосовуючи аналогічну процедуру підстановки для словоформи “спіє” одержимо одразу дві формально прийнятні відповіді: “спіти” та “співати”, з яких адекватним варіантом є, зрозуміло, лише перший. Для зняття подібної удаваної словоформної омонімії слід застосувати іншу форму лема-тизаційної формули у виглядів списку трійок типу: сЬ - сЬ*- ¡(і,
де сЬ - довільна квазіфлексія, тобто змінювана частина деякої форми, вихідної чи похідної; сЬ* - квазіфлексія вихідної форми, що відповідає словоформ/ з квазіфлексією сії; їсі - словозмінний тип (типи), для якого допускається подібна заміна. Такий перелік лематизаційних переходів отримується автоматично на основі алгоритмічного опису словозміни української лексики, один з варіантів якого, розроблений автором, містить, зокрема, орфографічний словник української мови, проіндексований за словозмінними типами, словозмінні таблиці, таблиці чергувань та списки словозмінних типів з нестандартною дистрибуцією чергувань.
Третій підрозділ другого розділу присвячено алгоритмічно-програмній реалізації підсистеми словотворчого гніздування україномовного словника. Автоматизоване словотворче гніздування передбачає наявність певних словотворчих моделей, які дозволяють об’єднувати в одному словниковому гнізді лексеми спільного походження та близькі за семантикою, що робить користування словником більш ефективним і водночас не ускладнює пошук потрібного слова.
Нехай маємо реєстр деякого словника, що складається з множини слів у вихідній (словниковій) формі. Якщо два або більше слів мають спільну кореневу частину (можливо також включно з префіксом, інтерфіксом) і відрізняються лише суфіксом та флексією, тобто мають вигляд:
1і= г, • в]
Ь = Гі - Ї2
1ц Ті • Sn,
де 1[12 ...... 1„ — одиниці словникового реєстру (елементи лівої частини
словника), як правило п <=б ; ті— спільна коренева частина слів; S! s2..........s„
— суфіксальні частики лексем ЦІ.....2 ....... 1ге . — знак конкатенації, то можна
зробити припущення про те, що ці слова мають спільне походження і можуть бути елементом словотворчого гнізда. Ця гіпотеза, однак, є обґрунтованою лише в разі спільної семантики цих слів.
У четвертому підрозділі другого розділу розглянуто питання алгоритмічно-програмної реалізації оператора транскрипції.
Побудова орфоепічного словника здійснюється шляхом реалізації оператора транскрипції, що являє собою набір правил перекодування слів та словосполучень у їх звичній графічній формі до транскрипційної форми. Процедура перекодування здійснюється автоматично. Запропонований нами алгоритм здійснює перекодування політерно з урахуванням контексту.
На відміну від паперового словника, у комп’ютерній орфоепічній системі діє орфоепічний оператор - відношення, який ставить у відповідність повній парадигмі слова [х], отриманій у результаті роботи оператора парадигматизації, набір транскрипцій усіх його словоформ у явному вигляді:
Е: [х] -» [:<]', де [х] = хь ... х„ - набір словоформ лексеми х.
Отже, орфоепічну лексикографічну систему подаємо у вигляді EPS = {S0, V(So> = (A(So), P(S,)), E, p, £}, де оператор E об’єднує ліву та праву частину розглядуваного словника:
Е(Л(х)) = Р(х), V(x) = { Л(х), Е(Л(х))} (12)
Зміст роботи орфоепічного оператора полягає в тому, що він відображає повну парадигму [х] лексеми х на набір транскрипцій її складових словоформ
Е:[х]-> [х]‘.
Слід зазначити, що оператор транскрипції застосовується до слів та словосполучень, ставлячи у відповідність будь-якому слову його відповідник у транскрипційній формі. Т (х) : х -> х‘.
На відміну від цього оператора орфоепічний оператор Е оформлює праву частину словникової статті, використовуючи, як оператор парадигматизації
Н: х -> [х],
так і оператор транскрипції: Т(х) : х —> х \
Укладання орфоепічного словника забезпечусться суперпозицією двох операторів: парадигматизації та транскрипції: Е = [Т Н](х), де порядок операторів є суттєвим. При цьому лексемі х ставиться у відповідність її орфоепічне оформлення як агрегату усіх її словоформ.
. Е(х) = [х] =хЛ х2‘,... Хп1,
де хі = х, х2,... х„- елементи парадигми.
У цьому випадку маємо повний комп’ютерний варіант орфоепічиого словника.
У скороченому вигляді відповідно до подання у паперовому варіанті словника
Е'(х) = х, w(x‘), де w(x‘) - набір квазіфлексій лексеми.
Перехід від Е(х) до Е1 (х) забезпечує згадана у попередньому підрозділі функція ALG(Px), яка будує словникову статтю орфографічного словника з заголовковим словом х.
Третій розділ "ПРИКЛАДНІ АСПЕКТИ КОМП’ЮТЕРНИХ УКРАЇНОМОВНИХ ЛЕКСИКОГРАФІЧНИХ СИСТЕМ" присвячено реалізації конкретних комплексних лексикографічних систем. Узагальнення парадигматичної класифікації української лексики природним чином призводить до можливості автоматизованої побудови українського граматичного словника, в якому у систематизованому вигляді подається інформація про усі особливості української словозміни. Питання укладання такого словника розглядаєшся в першому підрозділі третього розділу.
У такому словнику мають бути вказані в явному чи опосередкованому вигляді (таблиці, посилання) усі граматично правильні, нормативні форми літературної мови. У граматичному словнику мають бути вирішені усі проблеми щодо виокремлення лексем, наприклад чи належать до однієї словникової одиниці такі пари слів: окуляр і окуляри, десна і ясна тощо, проблема частиномовної приналежності лексем, співвідношення між омонімією та полісемією тощо.
Для формування граматичного словника суттєвим є виділення, з одного боку, частиномовного показника, з іншого - виділення граматичних класів (граматичних розрядів).
Важливе місце займає проблема віддзеркалення потенційних словоформ, тобто форм з дуже низькою, але не нульовою ймовірністю утворення в реальному тексті, наприклад: наказова форма від дієслова “канути”, множина від іменника “щастя” тощо. Це особливо суттєво для визначення лексем з неповною парадигмою, зокрема, singularia tantum (іменників, що не мають множини).
Системотехнічним та програмним аспектам автоматичного коригування граматичних помилок в українських текстах присвячено другий підрозділ третього розділу.
Реалізація операторів парадигматизації та лематизації створює можливість виявлення граматичної омонімії в текстах і автоматичної побудови словника омонімів. Структурним та алгоритмічним аспектам цього процесу присвячений третій підрозділ.
Явище омонімії відноситься до класу семонімічних феноменів мови, до яких також відносять синонімію, антонімію та паронімію. Врахування семонімічних, у першу чергу омонімічних ефектів є необхідним при побудові будь-якої працездатної автоматизованої системи опрацювання природної мови. Власне, так зване зняття омонімії є чи не найпершим кроком у побудові систем, орієнтованих на семантичну та/чи когнітивну мовну обробку.
Наявність парадигматичної системи, в якій бодай частково позначені абсолютні омоніми, а також проівдексовані елементи парадигми за їх граматичними значеннями, надає можливість автоматизованого формування словника омонімів певного типу. Для цього використовуємо побудовану раніше лексикографічну систему парадигматичної бази даних з такою структурою:
Л(Х) = и Л(хО; Л(хО =
Хі
Ші
Хі - заголовкове слово; щ - числовий індекс, який нумерує абсолютні омоніми: о>і = 0, 1, 2...; при Юі =0 цей індекс опускається; Р (X) = иР (хі);
Р(Хі) =
т
т
«>. ...
£іп(і) вК&пб))
де £,і] - елемент парадигми Хі ; §г(^у) - індекс граматичного значення елемента £,і]. У дисертації наведено класифікацію омонімів, аналізуючи яку, робимо висновок, що над парадигматичною базою даних з наведеною структурою можлива побудова процедури, за допомогою якої автоматично виділяються такі класи омонімів:
1. Абсолютні омоніми позначені в реєстрі через індекси со;;
2. = 4И при йг ©і) Ф вг (£к1)
3. = 4^ при хі * хк
Можливість та схема автоматизованої побудови інверсійних словників розглянута у четвертому підрозділі.
П’ятий підрозділ присвячено системотехнічним та лінгвістичним аспектам інтеграції українсько-російського та російсько-українського словників як прикладу інтеграції двомовних словників. Описано можливості автоматизованої
конвертації певних частин словника у нове виданая, що суттєво зменшує затрати праці лексикографів.
У шостому підрозділі третього розділу розглядаються постановка завдання, структура автоматизованої лексичної картотеки, її функції, режими функціонування, проблеми взаємодії між її підсистемами. Тут в явному вигляді побудовано і програмно реалізовано алгоритми декомпозиції українського тексту на мікроконгексти; запропоновано технологію автоматизованого створення лексикографічної бази даних прикладав слововживання українських лексем..
У сьомому підрозділі описано лексикографічну систему каргкування книг Біблії (СКАРБ), що реалізус функції лексичної картотеки для набору текстів зі своєрідною структурою, а саме таких, для яких традиційна адресація за сторінками не є релевантною. В структурі реєстрової частини Біблії А(В[Ь]) виділяються такі струкгурогвірні об'єкти: <усі тексти>; <узагальнена мова>; <видання>; <книга>; <глава>; <вірш>; <слово>. При цьому структуротвірний об'єкт <всі тексти> охоплює всю множину написаних і надрукованих текстів Біблії або її окремих частин; структуротвірний об'єкт <узагальнена мова> охоплює множину текстів Біблії, написаних конкретною узагальненою мовою; структуротвірний об'єкт <видання> охоплює множину конкретних видань Біблії і параметризується певним стандартним форматом бібліографічного опису, структуротвірний об'єкт <книга> параметризується назвами книг Біблії (як канонічних, так і неканонічних); структуротвірні об'єкти <глава>; <вірш>; <слово> мітять главу в книзі, вірш у главі та слово у вірші, відповідно.
ВИСНОВКИ
В процесі дослідження розв’язано ряд актуальних науково-технічних проблем україномовної комп’ютерної лінгвістики. Розроблено алгоритмічні засади та програмну реалізацію парадигматичної системи украй юької мови (оператор парадигматизації з системою його параметрів), за допомогою якої в автоматизованому режимі одержано інформацію про словозмінний тип українських лексем.
Побудовано словозмінну класифікацію, яка охоплює практично весь масив лексики сучасної літературної мови, і на її основі парадигматичну лексикографічну систему, що дозволяє отримувати в явному вигляді повні словозмінні парадигми слів української мови.
Розроблено основи алгоритмічно-програмної реалізації оператора лематизації, який ставить у відповідність текстовій словоформі її початкову форму. Запропонований алгоритм, що використовує парадигматичну класифікацію української лексики, дозволяє зняти у частині випадків граматичну словоформну омонімію.
Створена автором алгоритмічно-програмна реалізація системи словотворчого гніздування надає універсальну основу для побудови української частини українсько-іншомовних словників, оскільки автоматично формує ліву час-
тину словника в алфавітно-гніздовій формі з урахуванням морфологічної спорідненості слів. Розроблений інвентар методів обробки лексичних одиниць дозволяє використати їх для побудови різноманітних лексикографічних об’єктів.
Обгрунтовано схему автоматизованої побудови українського граматичного словника, в якому мають бути представлені та впорядковані усі словоформи літературної мови. Розглянуто системотехнічні та програмні аспекти автоматичного коригування граматичних помилок, а також автоматичного виявлення граматичної омонімії в украінських текстах та можливість побудови на основі парадигматичної лексикографічної системи словника омонімів.
Обґрунтовано можливість часткового конвертування інформації з однієї словникової структури в іншу в процесі укладання двомовних словників, що зменшує обсяг ручної роботи укладачів вказаних видань.
Розроблено модель та алгоритмічно-програмний комплекс автоматизованої лексичної картотеки, яка дозволяє отримувати інформацію про вживання слів у текстах і одержувати ілюстрації слововживання у вигладі мікрокшггекстів. Наведено приклад реалізації цієї технології у вигляді системи каргкування Біблії “СКАРБ”.
Отримані результати використані при укладанні 2-го видання Орфографічного словника української мови (Київ: Довіра, 1999), а також нового Орфоепічного словника.
Проведене дослідження дозволяє зробити висновок про необхідність побудови лексикографічних структур на масиві лексики природної мови в цілому, не обмежуючись окремими вибірками за тематичною або формальною ознакою. Саме цілісний фундаментальний підхід до мовних явищ в процесі їх комп’ютерного моделювання робить можливим побудову реально працюючих систем мовної обробки або їх окремих модулей.
ПУБЛІКАЦІЇ З ТЕМИ ДИСЕРТАЦІЇ
1. Шевченко І.В. Алгоритмічна словозмінна класифікація української лексики. //Мовознавство. - 1996. -№4-5. -С. 40-44.
2. Широков В.А., Шевченко І.В. Автоматизована лексична картотека: модель і структура.//Інформатизація та нові технології.-К., 1997. -№1.-С. 14-16.
3. Широков ВА., Шевченко І.В. Принципи побудови інформаційної теорії лексикографічних систем. //Проблемы программирования. Вып. З - К., 1998.
С.73-83.
4. В.Я. Рубан, В.І. В’юн, Г.Є. Кузьменко, А.О. Морозов, В.А. Широков, М.М. Пещак, І.В. Шевченко. Українсько-російсько-англійський термінологічний словник з ситуаційного управління. // Математические машины и системы. К., 1997. №1,-С. 128-173.
5. Шевченко IB.. Лінгвістичний сервіс інформаційних технологій: алгоритмічно-програмні аспекти. // Наукова і технічна інформація. К., 2000. №2. С. 24-27.
6. Шевченко І.В. Алгоритмічно-програмна реалізація парадигматичної системи українськім мови. // Математические машины и системы. К., 2000, №2, С. 87-91.
7. Широков В А., Шевченко І.В., Рабулець О.Г. Природномовна індексація як засіб до вдосконалення пошукового апарату інформаційних систем. // Наукова і технічна інформація. К., 2000. №3. С. 25-27.
8. Шевченко И.В., Широков ВА. Система автоматического контроля украинской орфографии. //Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: материалы 2-ой международной конференции «Крым-96». Т.1 - М.: TELEP, 1996. - С. 191-193.
9. Шевченко I. Автоматична парадигматизація лексичних одиниць у правописній системі української мови. // Тези наукової конференції з проблем сучасного українського правопису і термінології (3 нагоди 70-ліття першої Всеукраїнської правописної конференції у Харкові 1927 р.)К. 1997. С. 99-100.
10. Широков В.А., Шевченко І.В., Рабулець О.Г. Індексація повнотекстових баз даних. //Тези VII міжнародної науково-практичної конференції “Інформаційні ресурси науково-технічної інформації: проблеми створення і використання”. К. 2000. С. 125-128.
АНОТАЦІЯ
Шевченко І.В. Моделі та алгоритмічно-програмне забезпечення лексикографічних систем.
Дисертація на здобуття вченого ступеня кандидата технічних наук за фахом 05.13.06 "Автоматизовані системи управління та прогресивні інформаційні технології". Київ, 2000.
У дисертації розроблено основи алгоритмічної та програмної обробки текстів українською мовою. Запропонована структурна модель морфологічної системи української мови у складі двох підсистем: орфографічної та орфоепічної. Викладено новий метод класифікації лексичного корпусу української мови за допомогою оператора парадишаяшції. Побудовано в явному вигладі найповнішу з відомих словозмінну класифікацію українськой лексики обсягом близько 140000 слів, розподілених на 1435 словозмінних класів. Автором запропоновано формальне визначення поняття парадигматичного класу, розроблено моделі та створена алгоритмічно-програмна база парадигматизації, лематизації, побудови транскрипції. Побудовано у вигладі програмної системи і отримано в електронному вигляді лексичний масив української мови в алфавітно-гніздовій формі обсягом понад 140 тисяч лексем. Описана алгоритмічно-програмна реалізація підсистеми словотворчого гніздування украіномовного словника. Розроблені мо-
дель і алгоритмічно-програмний комплекс автоматизованої лексичної картотеки. Наведено приклад реалізації цієї технології у вигляді системи карткування Біблії “СКАРБ”. Вироблено рекомендації для подальшої роботи з автоматизованого укладання словникових систем нового покоління, зокрема українського граматичного словника, словника омонімів, двомовних та інверсійних; словників.
Ключові слова: комп’ютерна лексикографія, словникові структури, пара-дигматизація, лематизація, лексична картотека.
АННОТАЦИЯ
Шевченко И.В. Модели и алгоритмическо-программное обеспечение лексикографических систем.
Диссертация на соискание ученой степени кандидата технических наук по специальности 05.13.06 "Автоматизированные системы управления и прогрессивные информационные технологии". Киев, 2000.
В диссертации разработаны основы алгоритмической и программной обработки текстов на украинском языке. Предложена структурная модель морфологической системы украинского языка в составе двух подсистем: орфографической и орфоэпической.
Предложен новый метод классификации лексического корпуса украинского языка с помощью оператора парадигматизации. Каждая часть речи описывается при помощи ряда словоизменительных параметров, реализация значений которых в отношении конкретных лексем задает описание их словоизменительной парадигмы. Построена в явном виде наиболее полная из известных словоизменительная классификация украинской лексики объёмом. около 140000 слов, разбитых на 1435 словоизменительных классов. Автором предложенно формальное определение понятия парадигматического класса, построены модели н создана алгоритмическо-программная база парадигматизации, лемматизации, построения транскрипции. Построен в виде программной системы и получен в электронном виде лексический массив украинского языка в алфавитногнездовой форме объёмом более 140 тысяч лексем.
Предложенный оператор парадигматизации лексики позволяет с помощью системы словоизменительных параметров эксплицировать информацию о парадигматическом типе лексемы и формировать парадигматическую классификацию лексического состава языка. На основе словоизменительной классификации построена модель парадигматической лексикографической системы украинского языка, адекватность которой продемонсгирирована на репрезентативном массиве украинской лексики.
Разработана модель и изложены основы алгоритмическо-программной реализации оператора лемматизации, ставящего в соответствие текстовой слово-
форме её исходную форму. Предложенный алгоритм, сочетающий метод формирования гипотез об исходной словоформе на основе набора лемматизаци-онных переходов с проверкой адекватности парадигматического статуса лексем-претендентов, позволяет автоматически снять ряд случаев грамматической омонимии.
Описана модель и получена алгоритмическо-программная реализация подсистемы словообразовательного гнездования украиноязычного словаря, позволяющая объединять в одном словарном гнезде лексемы общего происхождения и близкие по семантике, и тем самым создающая универсальную основу украинской части при построении украино-иноязычных словарей и лексикографического обеспечения систем украино-иноязычного машинного перевода.
Выработаны рекомендации для дальнейшей работы по созданию словарных систем нового поколения. В частности, на основе разработанной парадигматической классификации обоснована возможность автоматического построения украинского грамматического словаря, в котором упорядочиваются все грамматически правильные, нормативные формы литературного языка. Рассмотрены системотехнические и программные аспекты автоматической коррекции грамматических ошибок в украинских текстах. Исследованы структурные и алгоритмические аспекты автоматического выявления грамматической омонимии в украинских текстах и схема автоматизированного построения словаря омонимов. Рассмотрена модель интеграции украинско-русского и русско-украинского словарей в ее системотехническом и лингвистическом аспекте как пример интеграции двуязычных словарей. Описаны возможности автоматизированной конвертации частей словаря в новое издание, что существенно уменьшает затраты труда лексикографов. Изложена схема автоматического построения инверсионных словарей.
Разработаны модель и алгоритмическо-программный комплекс автоматизированной лексической картотеки. Разработана и реализована алгоритмическо-программная система сегментирования украинского текста на микроконтексты, а также схема её применения в технологии , создания новой версии фундаментальной академической лексикографической системы "Словарь украинского языка" и в системе лексической картотеки Библии "СКАРБ", которая реализует функции лексической картотеки для текстов со своеобразной структурой.
Результаты работы использованы при подготовке 2-го издания Орфографического словаря украинского языка (Киев: Дов1ра, 1999) и академического Орфоэпического словаря украинского языка в 2-х томах, в процессе создания компьютерных словарей: парадигматического, орфоэпического, разработка технологии индексации лексикографических массивов на основе программной реализации алгоритмов парадигаатизации и лемматизации.
Ключевые слова: компьютерная лексикография, словарные структуры, парадигматизация, лемматизация, лексическая картотека.
ABSTRACT
I.V. Shevchenko. Models, algorithmic and programme support of the lexicographical systems.
The thesis is submitted in candidacy for an academic degree of technical sciences on the speciality 05.13.06 "Computer-aided management systems and progressive informational technologies". Kyiv, 2000.
The principles of algorithmic and programme processing of Ukrainian texts are worked out in this thesis. There is proposed a structural model of Ukrainian morphological system consisting of two sub-systems: orthographical and orthoepical. A new method of classifying the Ukrainian vocabulary with the help of a paradigmatizatioa operator is proposed. There is built up the most complete as yet word-inflexion classification of the Ukrainian vocabulary embracing about 140,000 words distributed among 1435 word inflexion classes. The author has proposed a formal description of the notion of the paradigm class, worked out models and designed the algorithmic basis and software for the computer-aided paradigmatization, lemmatization and transcription of the Ukrainian word units. A Ukrainian lexical corps composed in the alphabet nest order and consisting of more than 140,000 words is obtained in digital form as a result of the program processing. The algorithm and program realization of the word-formative nest constructing sub-system is described. The model and the algorithm-program complex of the computer-based word card index is worked out. The recommendations for further computer-aided compiling a new generation of the dictionary systems including the Ukrainian grammatical dictionary, the dictionary of homonyms, bilingual and inversional dictionaries are substantiated.
Key words: computational lexicography, dictionary structures, paradigmatization, lemmatization, word card index.
-
Похожие работы
- Методы оценки режимов работы и диагностики состояния оборудования электрической части тепловых электрических станций
- Развитие и применение метода конечных элементов для решения задач сейсмодинамики подземных сооружений
- Методы и алгоритмы извлечения данных из словарных текстов
- Многокритериальная оптимизация систем управления сложными объектами методами эволюционного поиска
- Разработка методов синтеза систем тестового поиска дефектов периферийных управляющих устройств в электронных коммутационных узлах
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность