автореферат диссертации по документальной информации, 05.25.01, диссертация на тему:Автоматизация лингвистической обработки словарей научно-технической информации

кандидата технических наук
Яфаева, Гузал Мирзахмедовна
город
Москва
год
1984
специальность ВАК РФ
05.25.01
цена
450 рублей
Диссертация по документальной информации на тему «Автоматизация лингвистической обработки словарей научно-технической информации»

Оглавление автор диссертации — кандидата технических наук Яфаева, Гузал Мирзахмедовна

ВВВДЕНИЕ.

Глава I. АНАЛИЗ СУЩВСТБУКЩИХ СПОСОБОВ АВТОМАТИЗАЦИИ

ЛИНГВИСТИЧЕСКОЙ ОБРАБОТКИ СЛОВАРЕЙ

1.1. Способы автоматизации лингвистической обработки словарей.

1.2. Критическая оценка рассмотренных способов.

Выводы.

Глава 2. ПРИНЦИПЫ МОРФОЛОГИЧЕСКОГО И

СИНТАКСИЧЕСКОГО АНАЛИЗА.

2.1. Краткая характеристика существующих методов.

2.2. Морфологический анализ.

2.3. Синтаксический анализ.

Выводы.

Глава 3. РАЗРАБОТКА СПОСОБОВ АВТОМАТИЗАЦИИ

ЛИНГВИСТИЧЕСКОЙ ОБРАБОТКИ СЛОВАРЕЙ

3.1. Необходимость автоматизации лингвистической обработки словарей

3.2. Способы автоматизации лингвистической обработки словарей

3.3. Автоматическое выделение словоизменительной и словообразовательной основ слов и назначение грамматической информации

3.3.1. Применение обратного словаря словоформ

3.3.2. Применение обратного словаря основ слов

3.3.3. Применение словарей суффиксов и псевдосуффиксов

3.4. Использование парадигматических отношений между словами для уточнения результатов обработки слов.

3.5. Применение локального синтаксического анализа для уточнения результатов обработки слов

Выводы.

Глава 4. МАШИННАЯ РЕАЛИЗАЦИЯ ПРОЦЕССОВ ЛИНГВИСТИЧЕСКОЙ

ОБРАБОТКИ СЛОВАРЕЙ.

4.1. Предварительные замечания

4.2. Алгоритм автоматического назначения признаков с помощью обратного словаря словоформ

4.3. Алгоритм автоматического назначения признаков с помощью обратного словаря основ слов

4.4. Алгоритм назначения признаков с помощью словарей суффиксов и псевдосуффиксов

4.5. Автоматическое назначение признаков глагольности, моделей управления и номеров словообразовательных классов.

Выводы.

Введение 1984 год, диссертация по документальной информации, Яфаева, Гузал Мирзахмедовна

В научно-технической политике нашей страны большое внимание уделяется повышению эффективности производства. Одной из главных задач в этом направлении является широчайшее использование средств информатики и вычислительной техники во всех сфесоздание автоматизированных систем научно-технической информации (АСНТИ). Поэтому исследования в области АСНТИ приобретают в настоящее время большое значение.

При создании АСНТИ приходится решать широкий крут проблем. Среди них важное место занимает проблема лингвистического обеспечения. От качества ее решения в значительной мере зависит эффективность АСНТИ в целом.

В системе научно-технической информации страны проблеме лингвистического обеспечения АСНТИ уделяется большое внимание. В этой области имеются уже значительные успехи. Однако далеко не все вопросы здесь решены на должном уровне. Это относится, в частности, к проблеме создания и лингвистической обработки машинных словарей - словарей на машиночитаемых носителях, используемых в процессах автоматической обработки информации.

В АСНТИ применяются машинные словари различного назначения. Они используются при аналитико-синтетической обработке информации (дуга контроля лексики в процессе ручного индексирования) , на этапе ее ввода в ЭВМ (для автоматизированного обнаружения и исправления ошибок), при автоматическом индексировании и в ряде других случаев.

Составление словарей - процесс весьма трудоемкий, хотя первый этап их создания - составление словников - не вызывает особых затруднений, так как в настоящее время для этой цели морах деятельности

Решению поставленной задачи способствует гут быть использованы пакеты прикладных программ типа АСОД, ПОИСК-I, ДИАЛОГ и др. Значительно сложнее дело обстоит с лингвистической обработкой словарей, связанной с выделением основ слов, определением типа словоизменения и словообразования, назначением грамматической и семантической информации, выявлением парадигматических связей между лексическими единицами и т.п.

Процессы лингвистической обработки словарей могут быть в значительной степени автоматизированы. Объективной предпосылкой для этого является имеющая место в естественных языках связь между грамматическими и семантическими признаками лексических единиц, с одной стороны, и системой их синтагматических и парадигматических отношений - с другой. В некоторых естественных языках (например, в славянских) наблвдается также сильная корреляция между грамматическими признаками слов и буквенным составом их концов (суффиксов и окончаний). Следовательно, опираясь на буквенный состав слов и систему их синтагматических и парадигматических отношений, можно определять для них грамматическую и семантическую информацию.

Вопросами автоматизации лингвистической обработки словарей занимались ряд отечественных и зарубежных ученых [20, 21, 23, 43, 51, 59, 99, 113, 114], и в этой области достигнуты некоторые положительные результаты. Но дело ограничивалось, как правило, решением задачи выделения словоизменительных основ слов и определения их принадлежности к части речи. При этом морфологическая структура слов учитывалась слабо, а синтаксические критерии совсем не применялись, и, как следствие, точность обработки не всегда была удовлетворительной. Между тем интересы практики требуют создания более эффективных методов автоматизации лингвистической обработки словарей, позволяющих решать более широкий круг задач.

Актуальность проблемы автоматизации лингвистической обработки словарей определяется тем, что в настоящее время лингвистическая обработка словарей ведется в основном вручную, сопряжена с большими трудозатратами и появлением большого числа ошибок, которые трудно обнаруживаются. При этом создание больших по объему словарей обычно растягивается на многие годы. Задача заключается в том, чтобы оптимальным образом сочетать возможности ЭВМ и человека: ЭВМ должна выполнять трудоемкие рутинные операции, а человек - творческую работу, связанную в основном с контролем результатов работы ЭВМ.

Данная диссертационная работа посвящена решению проблемы автоматизации лингвистической обработки словарей. Она выполнялась в рамках проблемы 0.80.18 и, в частности, задания 0.80.18.03.02: "Усовершенствовать и ввести в эксплуатацию АСНТИ по опубликованным отечественным и зарубежным источникам информации по естественным наукам и технике".

Целью исследования в диссертации является разработка принципов, алгоритмов и программ автоматизированной лингвистической обработки словарей, позволяющих существенным образом снизить трудоемкость создания машинных словарей, необходимых для автоматической обработки научно-технической информации и повысить их качество.

Предметом исследования являются имеющие место в естественных языках связи между синтагматическими и парадигматическими характеристиками лексических единиц, с одной стороны, и их буквенным оформлением - с другой. Исследование этих связей позволило создать методы, алгоритмы и программы, обеспечивающие автоматическое (без участия человека) определение с высокой вероятностью таких синтагматических и парадигматических характернотик слов как их принадлежность к части речи; признаки рода, числа, падежа и лица; модели управления; модели словоизменения и суффиксального словообразования; словоизменительные и словообразовательные основы.

Исследования проводились путем выявления корреляционных связей между буквенным составом слов и их синтагматическими и парадигматическими характеристиками, разработки алгоритмов лингвистической обработки словарей, их реализации на ЭВМ и последующей статистической оценки.

В процессе исследований получены следующие основные научные результаты:

- На основе анализа большого объема текстов (более трех миллионов слов) при участии автора был создан базовый машинный политематический научно-технический словарь, покрывающий тексты по информатике, автоматике и вычислительной технике на 98-99 %, а тексты по другой тематике на 90-94 %• Словарь включает в свой состав около 40 ООО лексических единиц. Для каждого слова в словаре указывается его принадлежность к части речи, длина словоизменительной и словообразовательной основы, номер словоизменительного (флективного) и словообразовательного классов, модель управления. Этот словарь используется в двух созданных в ВИНИТИ системах автоматической обработки текстов (автоматизированное обнаружение и исправление ошибок, автоматическое индексирование) и в автоматизированной словарной службе.

- При участии автора создана система словообразовательных классов слов (см. Приложение 2), позволяющая существенным образом (в 5 раз) повысить распознающую способность процедур их морфологического анализа по сравнению с обычно применяемыми процедурами, базирующимися только на словоизменительный анализ.

- При участии автора выявлена система суффиксов и сочетаний суффиксов в базовом научно-техническом словаре (см. Приложение I), позволяющая построить эффективные процедуры морфологического анализа и синтеза слов и процедуры автоматизированной лингвистической обработки словарей.

- Разработаны три метода автоматизации лингвистической обработки словарей: а) с помощью обратного словаря словоформ; б) с помощью обратного словаря основ слов; в) с помощью словарей суффиксов и псевдосуффиксов. Все эти методы реализованы на ИЗ ЭВМ и используются в практической работе в составе автоматизированной службы ВИНИТИ. В настоящее время с их помощью обработаны словники по информатике, автоматике, вычислительной технике, машиностроению, металлургии, электротехнике, энергетике, горному делу и охране окружающей среды общим объемом около

32 ООО лексических единиц.

- Исследована эффективность перечисленных выше методов автоматизации лингвистической обработки словарей. Даны рекомендации по их практическому применению.

Практическая значимость работы заключается в том, что в результате проведенных исследований созданы программные средства лингвистической обработки словарей, позволяющие в более короткие сроки и с меньшими затратами, чем вручную, создавать машинные словари. Эти средства были использованы при создании словарей для системы автоматизированного обнаружения и исправления ошибок и системы автоматического индексирования, разработанных в ВИНИТИ в рамках большой интегральной системы АССИСТЕНТ.

Новизна работы заключается в выявлении возможности эффективного использования имеющих место в естественных языках корреляционных связей между буквенным составом слов и их синтагматическими и парадигматическими характеристиками дом автоматического определения широкого спектра их грамматических и семантических признаков: принадлежности к части речи; словоизменительных и словообразовательных основ слов; флективных классов слов; признаков рода, числа, падежа и лица; моделей управления. Эти возможности материализованы в виде трех способов лингвистической обработки словарей, реализованных на ВС ЭВМ. Ранее исследователи ограничивались, в основном, решением задачи выделения словоизменительных основ слов и определения их принадлежности к части речи, и задачи эти решались, как правило, с невысокой точностью.

Личный вклад автора в проведенные исследования заключается в его активном участии в создании базового политематического машинного словаря, выявлении системы словообразовательных классов слов, системы суффиксов и сочетаний суффиксов, встречающихся в русских научно-технических текстах [9]. Он является также одним из разработчиков алгоритма морфологического анализа, включающего в свой состав процедуры словоизменительного и словообразовательного анализа [22]. Работа по созданию словарей и грамматических таблиц послужила исходным пунктом для решения задачи автоматизации лингвистической обработки словарей.

Автором лично разработаны и исследованы три метода автоматизированной лингвистической обработки словарей: I) с помощью обратного словаря словоформ; 2) с помощью обратного словаря основ слов; 3) с помощью словаря суффиксов (сочетаний суффиксов) и псевдосуффиксов. Все эти методы реализованы на ВС ЭВМ и используются в автоматизированной словарной службе ВИНИТИ.

Апробация работы. По теме диссертации имеется восемь опубликованных работ. Основные результаты работы были доложены автором на ХП, ХШ, Х1У научных семинарах "Системные исследования ГАС НТИ" и на I Московской городской конференции молодых ученых и специалистов "Информатика, вычислительная техника и автоматизация в науке и технике в народном хозяйстве".

Диссертационная работа состоит из введения, четырех глав и приложения. В первой главе дается анализ существующих методов автоматизации лингвистической обработки словарей, отмечаются их достоинства и недостатки. Формулируются задачи исследования. Во второй главе излагаются принципы построения алгоритмов морфологического и синтаксического анализа, в разработке которых автор принимал активное участие и которые позволили уточнить состав признаков, включаемых в машинные словари. Третья глава является центральной в работе. В ней описываются предложенные автором способы автоматизации лингвистической обработки словарей и дается оценка их эффективности. Эти способы реализованы на ЕС ЭВМ и используются для создания машинных словарей в системе автоматизированной словарной службы ВИНИТИ. Алгоритмы лингвистической обработки словарей и их машинная реализация описаны в главе четвертой. В приложении приведены фрагменты машинных словарей и грамматических таблиц, в разработке которых автор принимал активное участие и которые послужили исходным материалом для создания методов автоматизации лингвистической обработки словарей. Здесь также приведены образцы машинных решений.

Заключение диссертация на тему "Автоматизация лингвистической обработки словарей научно-технической информации"

Выводы

1. Разработанные автором методы автоматизированной обработки словарей реализованы на Ш ЭВМ и используются в практической работе в составе автоматизированной словарной службы ВИНИТИ. В настоящее время с их помощью обработаны словники по информатике, автоматике, вычислительной технике, машиностроению, металлургии, электротехнике, энергетике, горному делу и охране окружающей среды общим объемом около 32 000 лексических единиц.

2. Разработаны алгоритмы и программы, которые можно использовать для создания машинных словарей в более короткие сроки и с меньшими затратами, чем вручную.

3. Разработанные методы используются при создании словарей для системы автоматизированного обнаружения и исправления ошибок и в системе автоматического индексирования, создаваемых в ВИНИТИ.

4. Исследована вероятность правильного определения признаков при их автоматическом назначении, что дало возможность для вывода об эффективности разработанных методов лингвистической обработки словарей.

ЗАКЛЮЧЕНИЕ

В итоге работы над темой диссертации решена поставленная в начале исследования задача разработки принципов, алгоритмов и программ автоматизированной лингвистической обработки словарей, позволяющих существенным образом снизить трудоемкость создания машинных словарей, уменьшить сроки формирования новых словарей и обработки уже имеющихся.

В процессе исследования получены следующие научные результаты:

1. Автором разработаны три метода автоматизации лингвистической обработки словарей: а) с помощью обратного словаря словоформ; б) с помощью обратного словаря основ; в) с помощью словарей суффиксов и псевдосуффиксов. На основе этих методов возможно получение таких признаков, как длина словоизменительной основы, длина словообразовательной основы, номер флективного класса, номер словообразовательного класса, модель управления, принадлежность к части речи.

2. Автором исследована возможность уточнения информации и назначения признаков на основе учета парадигматических отношений, с помощью таблицы переходов для флективных классов и с помощью локального синтаксического анализа.

3. При участии автора была создана система словообразовательных классов слов, позволяющая существенным образом повысить распознающую способность процедур их морфологического анализа по сравнению с обычно применяемыми процедурами, базирующимися только на словоизменительный анализ.

4. При участии автора создан базовый машинный политематический научно-технический словарь объемом около 40 ООО лексических единиц, покрывающий тексты по информатике, автоматике и вычислительной технике на 98-99 %9 а тексты по другой тематике на 90-94 %. Для каждого слова в словаре указывается длина словоизменительной и словообразовательной основы, номер флективного и словообразовательного классов, модель управления, принадлежность к части речи.

5. При участии автора выявлена система суффиксов и сочетаний суффиксов в базовом научно-техническом словаре, позволяющая построить эффективные процедуры морфологического анализа и синтеза слов и процедуры автоматизированной лингвистической обработки словарей.

6. Разработанные автором способы автоматизации лингвистической обработки словарей реализованы на ВС ЭВМ и используются наряду с созданным базовым словарем в практической работе в составе автоматизированной службы ВИНИТИ. В настоящее время с их помощью обработаны словники по информатике, автоматике, вычислительной технике, машиностроению, металлургии, электротехнике, энергетике, горному делу и охране окружающей среды общим объемом около 32 ООО лексических единиц.

7. Даны рекомендации по практическому применению разработанных способов автоматизации лингвистической обработки словарей.

- из

Библиография Яфаева, Гузал Мирзахмедовна, диссертация по теме Научная и техническая информация

1. Автоматизированная система ведения информационных языков АСВШ. Информационные материалы. Гос. Комитет СССР по стандартам. - М.: ВИНИТИ, 1983, вып. I.

2. Интеллектуальные банки данных. Вопросы кибернетики /Под ред. Л.Т.Кузина. М.: Наука, 1979.

3. Информационно-поисковая система "ВИТ". Киев: Наукова думка, 1968.

4. Информационно-программное обеспечение систем искусственного интеллекта. В кн.: Сб. трудов семинара МДНТИ им. Ф.Э.Дзержинского. М. 1978.

5. Искусственный интеллект. Итоги и перспективы. В кн.: Сб. трудов семинара МДНТИ им. Ф.Э.Дзержинского. М., 1974.

6. Лингвистическое обеспечение фактографического информационного поиска. В кн.: Вопросы информационной теории и практики. - М.: ВИНИТИ, 1979, JS 42.

7. Рабочий проект САЦНТЙ. М.: ВИНИТИ, 1979, том I.

8. Академик А.Александров, президент Академии наук СССР. Задача.до конца столетия. Газета "Известия", 19 января 1984 г.

9. Александрова Г.П., Белоногов Г.Г., Новоселов А.П., Стогов Е.И. Система автоматического синтаксического анализа русских текстов. Научно-техническая информация, 1975, сер. 2, J& 3.

10. Анно Е.И. Исследование и разработка экспериментальной системы автоматического индексирования. Автореф. дис. на соиск. учен, степени канд.техн. наук. М.: ВИНИТИ, 1976.

11. Апресян Ю.Д. Идеи и методы современной структурной лингвистики (краткий очерк). М.: Просвещение, 1966.

12. Апресян Ю.Д. Лексическая семантика и синонимические средства языка. М.: Наука, 1974.

13. Арутюнова Н.Д., Максимова О.А. Размышления о пользе обратных словарей. Филологические науки, 1968, № 5.

14. Бакулов А.Д., Черный А.И. лингвистическое обеспечение современных автоматизированных банков данных. Итоги науки и техники. Серия "Информатика". - М.: ВИНИТИ, 1981, том 6.

15. Баюн Л.С., Гончар Л.А. Автоматическое построение словаря основ по имеющемуся словарю словосочетаний. Вопросы информационной теории и практики, 1975, J£ 27.

16. Белоногов Г.Г. Распределение частот появления флективных классов русских слов. Проблемы кибернетики. М.: Физматгиз, 1964.

17. Белоногов Г.Г. Определение грамматических признаков "новых" слов с помощью словаря. Инженерная лингвистика, ЛПШ им. Герцена. Ученые записки, том. 458, часть П, I., 1971, стр. 225-229.

18. Белоногов Г.Г. Об использовании метода аналогии при автоматической обработке текстовой информации. Проблемы кибернетики, 1974, & 28.

19. Белоногов Г.Г., Губайдуллина Г.М., Калинин Ю.П., Поздняк М.В., Хорошилов А.А. Принципы многоступенчатого морфологического анализа. Тезисы докладов в сб.: 1У школа-семинар "Интерактивные системы", Сухуми, 1982.

20. Белоногов Г.Г., Давыдова И.М. О возможности определения грамматических классов по буквенным кодам слов. Научно-техническая информация, сер. 2. М., 1967, J£ 8.

21. Белоногов Г.Г., Загика Е.А., Калинин Ю.П. , Новоселов А.П., Хорошилов А.А.,-Яфаева Г.М. Автоматизация лингвистической обработки словарей. Научно-техническая информация, 1983, серия 2, № II.

22. Белоногов Г.Г., Калинин Ю.П., Новоселова Л.Н., Поздняк

23. М.В., Хорошилов А .А., Яфаева Г.М. Инвертированный словарь словообразовательных классов слов. Депонированная рукопись. - М.:.ВИНИТИ, 1983, 88 с. (Деп. 10.05.83, № 2502-83 деп ).

24. Белоногов Г.Г., Калинин Ю.П., Поздняк М.В., Хорошилов А.А., Яфаева Г.М. Алгоритм многоступенчатого морфологического анализа русских слов. Научно-техническая информация, 1983, серия 2, В I, с. 6-10.

25. Белоногов Г.Г., Кузнецов Б.А. Языковые средства автоматизированных информационных систем. М.: Наука, 1983.

26. Белоногов Г.Г., Кузнецов Б.А., Новоселов А.П. Автоматизированная обработка научно-технической информации. Лингвистические аспекты. Итоги науки и техники. Серия "Информатика". М.: ВИНИТИ, 1984, том 8 (в печати).

27. Белоногов Г.Г., Новоселов А.П. Автоматизация процессов накопления, поиска и обобщения информации. М.: Наука, 1979.

28. Беляева Л.Н. Статистическая структура словообразовательных гнезд и машинный словарь русских основ. Канд.дисс., Л., 1974.

29. Березин Ф.М., Головин Б.Н. Общее языкознание. М.: Просвещение, 1979.

30. Бобров А.И., Зайцев в.Г. Автоматическое индексированиев отраслевой ИПС РЕФЕРАТ. Всесоюзный семинар по информационным языкам. Предварительные публикации. - М.: Научный совет по комплексной проблеме "Кибернетика" АН СССР. 1974, вып. 10.

31. Босилашвили Э.В., Кикнадзе В.Г. Диалоговая система для общения с модельным роботом на естественном языке. В сб.: Тезисы докладов П школы-семинара "Интерактивные системы", Боржоми, 1980.

32. Брябрин В.М. Исследование и реализация систем диалогового взаимодействия человека и ЭВМ. М., ВЦ АН СССР, 1979. Автореферат докт. дисс.

33. Вакуловская Г.В., Кулагина О.С. Об одном алгоритме синтаксического анализа русских текстов. Проблемы кибернетики, 1967, вып. 18, стр. 217-301.

34. Варга Д. Проблемы осуществления морфологического анализа при машинном переводе. Научно-техническая информация, 1964, Je 4.

35. Виноград Т. Программа, понимающая естественный язык. -М.: Мир, 1976.

36. Вишнякова С.М. Выделение существительных и прилагательных при автоматическом анализе текста. Научно-техническая информация, 1976, сер. 2, № 3.

37. Володин К.И., Анно Е.И., Андросова Л.В., Голома К.В., Шумакова Л.Л. Автоматическое кодирование поисковых образов документов. Научно-техническая информация, сер. 2, М., 1979, В 5.

38. Выходцева Л.Н. Алгоритм морфологического анализа русской назывной фразы.-В кн.: Разработка и совершенствование лингвистического обеспечения информационного поиска. Сб. научных трудов ГПНТБ СССР. М., 1982.

39. Газдов И.Г. Автоматическое индексирование текстов документов на основе буквенного анализа слов (на материале болгарского языка). М.: ВИНИТИ, 1981. Канд.дисс.

40. Гнеденко Б.В., Хинчин А.Я. Элементарное введение в теорию вероятностей. М.: Наука, 1982, издание девятое.

41. Грязнухина Т.А., Комарова Л.И. Соотношение между флективной парадигмой и парадигмой основ при словоизменении имен существительных в украинском языке .-Веб.: Структурная и математическая лингвистика. Киев: Вища школа, 1977, вып. 5.

42. Дейт К. Введение в системы баз данных. М.: Наука, 1980.

43. Домбровский М., Дрызек X.» Лаус-Мончиньская К., Шиманов-ская И. Система обработки сложных терминов в тексте (ПНР).- Научно-техническая информация, сер. 2, 1980, № 12.51,52,53,54,55