автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Методы автоматического поиска релевантной информации в тексте на естественном языке

кандидата физико-математических наук
Комаров, Игорь Иванович
город
Санкт-Петербург
год
2003
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Методы автоматического поиска релевантной информации в тексте на естественном языке»

Оглавление автор диссертации — кандидата физико-математических наук Комаров, Игорь Иванович

. Аннотация

Список сокращений и условных обозначений. • Глава IIодходы к формализации естественного языка. Опыт использования ' естественного языка в компьютерных системах

1.1 Подходы к формализации ЕЯ '

1) Наивное использование «семантических кварков»

2) Структурно генеративный подход Хомского (Порождающие грамматики) ,

3) «Синтаксическая семантика» (Синтактика)

4) Офаниченно-естественные языки. Языки программирования

5) Лексико-семантическое поле

6) Когнитивная семантика

7) Модель СМЫСЛ <» ТЕКСТ

8) Семантическая модель русского языка В^\ Тузова. (Семантический язык) „ „

1.2 Известные модели использования ЕЯ в компьютерных системах

1) Опытно-экспериментальные разработки ; '

2) Системы автоматического перевода, автоматические корректоры текстов

3) Системы автореферирования и поиска информации. Поисковые Intemet-машины

4) Автоматизированные обучающие диалоговые системы

1.3 Постановка задачи автоматического поиска релевантной информации в ТЕЯ ,

Глава Описание используемого способа формализации естественного языка

2.1. Требования к формализованному представлению ЕЯ

2.2. Подход к формализации естественного языка

1) Основополагающие тезисы Л

2) Модель морфологии русского языка • 3) Семантико-синтаксическая модель русского языка

2.3 Возможные варианты использования формалшованного представления естественного языка

Глава Методы автоматического поиска релевантной информации в ТЕЯ

3.1 Методы автоматического поиска и определения релевантности информации в ТЕЯ

1) Требования к методам АПРИ в ТЕЯ

2) Методы АПРИ в ТЕЯ а) Определение релевантности информации на основе морфологической составляющей ФПЕЯ б) Определение релевантности информации на основе синтаксической составляющей ФПЕЯ в) Определение релевантности информации на основе семантической составляющей ФПЕЯ

3.2 Подходы к ЕЯ- обеспечению взаимодействия с РБД

1) Сравнительная характеристика представления информации в ФПЕЯ и РБД

2) Подходы к решению основных задач ЕЯ- обеспечения взаимодействия с РБД

Введение 2003 год, диссертация по информатике, вычислительной технике и управлению, Комаров, Игорь Иванович

Введение отражает актуальность, целевую установку и задачи исследования, направленность работы на использование в компьютерных системах (КС), конкретизирует прикладное понятие семантики текста на естественном языке (ТЕЯ).

Глава 1 содержит обзор наиболее известных подходов к формализации естественного языка и опыта использования ЕЯ в компьютерных системах (КС). Приводятся модели понимания ЕЯ и обобщенные структуры лингвистических процессоров, реализующих их. Даются наиболее характерные примеры практического использования языковой информации в КС. Выявляются общие черты, достоинства и недостатки обсуждаемых подходов. Завершается глава указанием наиболее перспективного подхода к формализации ЕЯ, постановкой целей и задач исследования.

Глава 2 содержит описание выбранного подхода к формализации ЕЯ. В первой части главы приводятся общие требования к ФПЕЯ, излагаются основополагающие тезисы, лежащие в основе выбранного подхода. Приводится общая структура лингвистического препроцессора. Во второй и третьей частях главы излагаются морфологическая и семантико-синтаксические уровни семантической модели русского языка (РЯ). Материал представляется на ЕЯ примерах, со ссылками на основополагающие тезисы, но не затрагивает вопросы конкретной компьютерной реализации. Примеры имеют целью проиллюстрировать общую идею и основные взаимосвязи уровней ФПЕЯ. Глава завершается выделением возможных вариантов использования ФПЕЯ, в частности в форме взаимодействия с реляционными базами данных. Формулируются прямая и обратная задачи взаимодействия с реляционными базами данных.

Глава 3 посвящена методам использования ФПЕЯ в КС. Первая часть главы посвящена описанию математических моделей автоматического поиска релевантной информации (АПРИ) в ТЕЯ с использованием морфологического, синтаксического и семантического уровней формальной модели РЯ. В оставшейся части 3-й главы излагаются математические модели взаимопреобразования семантических отношений, представленных в форме ТЕЯ и реляционной базы данных. Определяются подходы к организации ЕЯ-взаимодействия с РБД. Формулируются задачи взаимодействия и определяются пути их решения. Выделяются принципиально неразрешимые противоречия, связанные с особенностями построения ТЕЯ,' соотнесенными со структурой РБД.

Заключение содержит выводы по материалам исследования, логически изложение последовательное изложение хода работы. Возможность использования полученных результатов и рекомендаций по дальнейшему направлению исследований.

Оглавление

Аннотация.2

Список сокращений и условных обозначений.6

Введение.,.7

Заключение диссертация на тему "Методы автоматического поиска релевантной информации в тексте на естественном языке"

Результаты исследования могут быть использованы при построении систем ЕЯ КС.

В ходе исследования определились ряд перспективных задач, разработка которых откроет дальнейшие возможности совершенствования ЕЯО КС. К таким задачам можно отнести: выявление Сем коллизий содержащихся в ЕЯ описании ПО; разработка методик коллективного создания СемСл; совершенствование методов учета анафорических ссылок.

Заключение

В настоящей работе, посвященной повышению качества использования естественного языка в компьютерных системах, поставленная цель достигнута за счет использования ФПЕЯ и разработки методов автоматического поиска и определения релевантности информации, представленной в ЕЯ виде.

Для достижения поставленной цели решены следующие частные задачи:

1. Выбран метод формализации ЕЯ, допускающий эффективное использование в компьютерных системах.

2. Использованы известные и разработан расширенный метод АПРИ в тексте на ЕЯ.

3. Доказана возможность гомоморфных преобразований между формализованным представлением естественного языка и структурой реляционных баз данных.

4. Определены подходы к использованию ЕЯ для решения задач взаимодействия с РБД.

Исследование опиралось на анализ современного опыта и задач ЕЯО КС, информацию о структуре и методах функционирования СемЯ. Общая логика исследования может быть отражена следующим образом:

В настоящее время отсутствует единый взгляд на использование ЕЯ в КС. Это вызвано расхождением большого числа авторов и школ на модели строения и функционирования ЕЯ. Синтез целостной модели функционирования ЕЯ, направленной на использование в КС, позволяет формировать общий подход к построению ЕЯО. Формальная модель ЕЯ 'должна стать надмоделью всех известных моделей и оперировать, как ф минимум, с информацией на семантическом уровне. Этим требованиям удовлетворяет СемЯ, разработанный профессором факультета Прикладной математики — Процессов управления СПбГУ д.ф.-м.н. Тузовым В.А.

Выявлено, что для решения большинства задач ЕЯО КС на базе выбранной модели ФПЕЯ необходимы алгоритмы автоматического определения релевантности информации в тексте на ЕЯ, что и определяет актуальность проведенного исследования.

В результате анализа известных методов АПРИ была выявлена возможность и целесообразность их использования на морфологическом уровне, однако возможности СемЯ, позволяющие оперировать с иерархически упорядоченным множеством, обеспечивают качественно новый уровень представления ЕЯ- информации - на семантическом уровне. Это предоставляет средства для расширения методов АПРИ и, в частности, для синтеза метода АПРИ с контролируемой шириной поиска Сем близости.

Однако, использование ФПЕЯ и разработка методов АПРИ не самоцель, а лишь необходимый этап для формирования КС адекватной реакции на ЕЯ- информацию. Из чего следует, что актуальной является задача разработки подходов к использованию ФПЕЯ в КС, и, в частности, формальных методов реакции на отношения между сущностями. Для формализации процесса взаимодействия с РБД сформулирована задача автоматического выделения сущностей и поиска заданных отношений между ними. В зависимости от конкретных условий эта задача может быть разделена на две подзадачи:

1. автоматическое определение сущностей и поиск заданных отношений в ТЕЯ; и обратной ей задачи:

2. автоматического выделение типа отношений по информации, представленной ТЕЯ

Приведенные подходы к организации ЕЯО взаимодействия с РБД определяют лишь общую идею и не затрагивают особенности практической реализации, которые могут отличаться в зависимости от прагматической направленности КС.

Библиография Комаров, Игорь Иванович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Автоматический перевод.// Сборник статей. Обзор Кулагина О.С., Мельчук А.И. -М.: Прогресс, 1971.

2. Адамович И.М. Интегрированная технология работы в Web-пространстве Internet.// Авт. дисс. .к.т.н. — М.: ИПИ РАН, 2000.

3. Андриевский А., Дебили Ф., Флюр X, Холал Я. Исследования по лингвистике и автоматическому индексированию.// Взаимодействие с ЭВМ на естественном языке. Сб. научн. трудов под ред. А.С. Нариньяни. Новосибирск: ВЦ СО АН СССР, 1976.

4. Андронов Г.Д. Методы автоматической обработки сообщений СМИ// Информационные технологии и интеллектуальные методы. Вып. 2. СПИИРАН. СПб.: ТОО «Издательство Анатолия», 1997.

5. Анисимов А. Компьютерная лингвистика для всех: Мифы. Алгоритмы. Язык // http://kulichki.rambler.ru/moshko\v/culture/anisimow/lingw.txt ,Мау 1999.

6. Апресян Ю.Д. Избранные труды. Т.1. Лексическая семантика: 2-е изд., испр. и доп. М.: Языки Русской Культуры, «Восточная литератур'а» РАН, 1995.

7. Апресян Ю.Д. Синтаксическая обусловленность значений.// Русский язык в национальной школе, № 6, 1967.

8. Апресян Ю.Д. Богуславский И.М., Иомдин JI.JI. Лингвистический ' процессор для сложных информационных систем М.: Н., 1992.

9. Апресян Ю.Д., Цикман Л.Л. Об идеологии системы ЭТАП2.// Формальное представление лингвистической информации. Сб. научных трудов. Новосибирск: ВЦ СО АН СССР, 1982.

10. Апресян Ю.Д., Цикман Л.Л. Перефразирование на компьютере// СиИ, №36, 1998.

11. Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции. В 2-х томах. /Пер. с англ. — М.: Мир, 1978.

12. Ахо А., Сети Р., Ульман Дж. Компиляторы: принципы, технологии и инструменты./ Пер. с англ. М.: Издательский дом «Вильяме», 2001.

13. Большаков И.А. Письмо Президенту АН СССР ак. Александрову А.П.// в. кн. Опыт теории лингвистических моделей «СМЫСЛ <=> ТЕКСТ». -М.: Языки Русской Культуры, 1999.

14. Братчиков И.Л., Филатов С.Я., Цейтин Г.С. О структуре словаря и кодировке информации для машинного перевода.// Материалы по машинному переводу. Л.: ЛГУ, 1968.

15. Братчиков И.Л. Синтаксис языков программирования. М.: Н., 1976.

16. Буч Г., Рамбо Д., Джеккобсон А. Язык UML. Руководство пользователя. /Пер. с англ. М.:ДМК, 2000.

17. Вежбицкая А. Семантические универсалии и описание языков./Лер. с англ. М.: Языки Русской Культуры, 1999.

18. Виноград Т. Программа, понимающая естественный язык. /Пер. с англ. — М.: Мир, 1976.

19. Вышнин Е.Г Знаковая интерпретация текста.// Семантика и синтаксис текста. Межвузовский сборник научных статей. Куйбышев: КГУ, 1988.

20. Данилова Н.К. Предметно-пространственная референция текста.// , Семантика и синтаксис текста. Межвузовский сборник научных статей. — Куйбышев: КГУ, 1988.

21. Гладкий А.В. Синтаксические структуры естественного языка в автоматизированных системах общения. М.: Н. Главная редакция физико-математической литературы, 1985.

22. Гладкий А.В., Мельчук А.И. Элементы математической лингвистики. — М.:Н., 1969.

23. Гусев В.Д., Соломатин Н.В. Анализ ошибок, не выявленныхавтоматическими корректорами.// Квантитативная лингвистика и семантика (KBАЛИСЕМ-99). Новосибирск: НГПУ, 1999.

24. Зализняк А.А. Грамматический словарь русского языка: Словоизменение. М: Русский Язык, 1987.

25. Каверина О.Н. Типы семантических отношений в лексико-семантическом поле. Балашов: Издательство БГПИ, 1999.

26. Кацнельсон С.Д. Заметки о падежной теории Филлмора.// ВЯ, № 1, 1988.

27. Кашелава В. Поисковые системы для Интернет.// PCWEEK/RE, № 10 (84), 1997.

28. Кашелава В. Поисковые системы.// PCWEEK/RE, № 21 (95), 1997.

29. Квантитативная лингвистика и семантика (КВАЛИСЕМ-99). -Новосибирск: НГПУ, 1999.I

30. Комаров И.И. Методика динамического синтеза имитационных моделей для анализа систем распределения информации //Тематический научный сборник Проблемы совершенствования РЭТ ПВО, №6, ДСП, СПб.: СПВУРЭ ПВО, 1998.

31. Комаров И.И. Методика автоматизированного проведения имитационного эксперимента для анализа информационного взаимодействия объектов группировки ПВО //Тез. докл. Второй научнотехнической конференции МВУРЭ 29-30 октября 1997 года, М.: МВУРЭ, 1997. .

32. Комаров И.И Разработка интегрированной среды для синтеза систем распределенной обработки информации //Тез. докл. 3-й Российской университетско-академической научно-практической конференции", ч.З.- Ижевск: Изд.Удм. Университета, 1997.

33. Кондратьев А.В, Кривцов А.Н., Лебедев И.С. Анализаторы текстов формальной модели русского языка для компьютера. СПб.: НИИ Химии СПбГУ, 1998

34. Кононенко Р.Н. Разработка методов и алгоритмов мультиагентного поиска релевантной информации в информационных средах гипертекстовой организации.// Авт. дисс.к.т.н. Таганрог, ТГУ, 2000.

35. Котов Р.Г., Новиков А.И., Скокан Ю.П. Прикладная лингвистика и информационная технология. — М.: Н., 1987.

36. Котов Р.Г. Оптимизация речевого воздействия. — М.: Н., 1990. t

37. Крибцов А.Н. Проблемы формализации русского языка в процессах управления поисковых, обучающих и естественно-языковых систем./Дис. . к.ф.-м.н. СПб.: СпбГУ, 1998.

38. Крупко Н.А., Цейтин Г.С. Разработка языкового процессора для системы управления.// Взаимодействие с ЭВМ на естественном языке. Сб. научн. трудов под ред. А.С. Нариньяни. Новосибирск: ВЦ СО АН СССР, 1976.

39. Кузин JI.T. Основы кибернетики: В 2-х т. М.: Энергия, 1979.

40. Лезин Г.В., Тузов В.А. Моделирование текстов. // Информационные технологии в гуманитарных и общественных науках. Вып. 9: Семантико-синтаксический анализ текстов. — СПб.: СПб Экономико-математический институт РАН, 2000.

41. Лейкина Б.М., Никитина Т.М., Откупщикова М.И., Филатов С.Я, Цейтин Г.С. Система автоматического перевода, разрабатываемая "в группе математической лингвистики ВЦ ЛГУ, М.: НТИ № 1, 1966.

42. Лексическая и грамматическая семантика. Белгород: Белгородский ГУ, 1998.

43. Лендваи Э. Лексическая семантика русского языка. Budapest, Nemzeti Tankcnyvkiady Rt. 1998. '

44. Леонтьева H.H. К теории автоматического понимания естественных текстов. В 2-х частях. М.:Изд-во МГУ, 2000.

45. Логический подход к искусственному интеллекту: от классической логики к логическому программированию./Пер. с фр. Тейз А., Грибмон П., Луи Ж. и др. М.: Мир, 1990.

46. Марселус Д. Программирование экспертных систем на Турбо Прологе. /Пер.с англ. М.: ФиС, 1994.

47. Мартемьянов IO.C. О форме записей ситуаций.// Машинный перевод и прикладная лингвистика, вып. 8, 1964.

48. МедиаЛингва. Программа смыслового (нечеткого) поиска текстово: информации Следопыт 1.0 http://www.medf~aHnqua.ru.

49. Мельчук А.И. Опыт теории лингвистических моделей «СМЫСЛ <з> ТЕКСТ». М.: Языки Русской Культуры, 1999.

50. Минор А.Я. Повторная номинация темпоральных идентификаторов как средство организации текста.// Семантика и синтаксис текста. Межвузовский сборник научных статей. — Куйбышев: КГУ, 1988. •

51. Минский Ч. Фреймы для представления знаний. М.: Энергия, 1979.

52. Нагое З.В. Модель представления смысла текстовой информации. /Дис.к.т.н. — Нальчик, 2000.

53. Неилко О.Б. Обоснование содержания информационного обеспечения перспективных АСУ для решения задач планирования боевого ' применения соединения (части) РТВ. /Дис.к.т.н. СПб.: СПВУРЭ ПВО, 1998.

54. Ньютон Исаак. Об универсальном языке (1651).// Семиотика и информатика вып. 35. — М.: Языки Русской Культуры, Русские словари, 1997.

55. Отчет о НИР "Интранет-2" раздел 5, ФВУ ПВО, инв.№ ?!!, СПб, 2003.

56. Отчет НИР "Сплав-3" (промежуточный), разделы 2.2-2.4. Секретно. СПВУРЭ ПВО, инв.Хо ?!!, СПб.1999.

57. Отчет о НИР "Синтез" СПВУРЭ ПВО, инв.№ ?!!, СПб, 1998. 1

58. Плугнян В.А., Рахилина Е.В. Парадоксы валентностей.// Семиотика и информатика, № 36, 1997, с. 108-120.

59. Попов Э.В. Экспертные системы: Решение неформализованных задач в диалоге с ЭВМ. М.: Н., 1987.

60. Поспелов Д.А. Данные и знания. // В сб. Искусственный интеллект. В 3-х кн. — М.: РиС, 1990.

61. Поспелов Д.А. Продукционные модели. // В сб. Искусственный интеллект. В 3-х кн. — М.: РиС, 1990.

62. Поспелов Д.А. Уровни понимания. // В сб. Искусственный интеллект. В 3-х кн. -М.: РиС, 1990.

63. Прагматические аспекты грамматической и лексической семантики. Тезисы докладов научной конференции. М.: Гос. институт русского языка, 2000. i

64. Семантика. Функционирование. Текст. Киров: Вятский педагогический университет, 1999.

65. Семантика и прагматика текста. — Барнаул: Алтайский ГУ, 1998.

66. Семантика и прагматика языка в диалоге культур. Самара: Самарский Университет, 1998.

67. Семантика и синтаксист текста //Межвузовский сборник научных статей. -Куйбышев: КГУ, 1988.

68. Семантические единицы русского языка в диахронии и синхронии. -Калининград, КГУ, 2000. »

69. Синтаксическая семантика: проблемы и перспективы. Орел: Орловский ГУ, 1997.

70. Семантика и функционирование единиц языка и речи. — Уфа: Башкирский педагогический институт, 1996.

71. Совпель И.В. Понимание текстов на естественном языке. // В сб. Искусственный интеллект. В 3-х кн. - М.: РиС, 1990.

72. Современный русский язык. В 3-х томах. /Под. ред. Шубы П.П. Минск: Плопресс, 1998.

73. Спиноза Б. Избранные произведения. М.; Госполитиздат, 1957, T.'l.

74. Структурный анализ диалога./ Александров А.А., Арсеньев А.В., Семенов А.И. Л.: АН СССР ЛНИВЦ (препринт) № 80, 1993.'

75. Татаренцева Е.Н. Секретность. Компетентность и прагматика. //Прагматические аспекты грамматической и лексической семантики.

76. Тезисы докладов научной конференции. — М.: Гос. институт русского языка, 2000.

77. Тихонов А.Н., Садовничий В.А. и др. Компьютерные технологии в высшем образовании. М: Изд-во МГУ, 1994.

78. Тузов В.А. Математическая модель языка. Л., Изд-во ЛГУ, 1984.

79. Тузов В.А. Языки представления знаний. Л., Изд-во ЛГУ, 1990.

80. Тузов В.А. Морфологический анализатор русского языка. //Вестник СПбГУ. Сер. 1, 1996, вып.З (№15).

81. Тузов В.А. Синтаксическая структура русского языка. //Вестник СЦбГУ. Сер.1, 1997, вып. 1 (№17).

82. Тузов В.А. Семантический анализ текстов на русском языке. //Вестник СПбГУ. Сер. 1, 1998, вып. 1 (№21).

83. Тузов В.А. Семантический анализатор текстов на русском языке. • //Информационные технологии в гуманитарных и общественных науках. Вып. 9: Семантико-синтаксический анализ текстов. СПб.: СПб Экономико-математический институт РАН, 2000.

84. Тузов В.А. Компьютерная лингвистика. Опыт построения компьютерных словарей. /Электронная версия, 1996. »

85. Учебный словарь сочетаемости слов русского языка. /Под ред. Денисова Н.П., Морковкина В.В. — М.: Русский язык, 1978.

86. Хейс Давид Г. Методы исследования в области автоматического перевода. //Автоматический перевод. — М.: Прогресс, 1971.

87. Хоштариа М.Г. Об одной семантической модели некоторой предикатной группы слов естественного языка.// СИИ, вып. 12, М.: ВНИИТИ, 1979.

88. Хомский Н., Миллер Дж.А. Конечные модели использования языка. //Кибернетический сборник, новая серия, № 4. М.: Мир, 1967.

89. Цейтин Г.С., Засорина Л.Н. О выделении конфигураций в русском1 предложении. //Доклады на конференции по обработке информации имашинному переводу и автоматическому чтению текста. — М.: ВНИИТИ, 1961.

90. Шафиков С.Г. Семантические универсалии в лексике. Уфа: Башк. ГУ, 1996.

91. Шафиков С.Г. Теория семантического поля и компонентной семантики его единиц. — Уфа, Башкирский Университет, 1999.

92. Юсупов P.M., Заболотский В.П. Научно-методические основы информатизации. — СПб.:Н., 2000.

93. Aristotle. Topics. In the work of Aristotle. Ed. W.D. Ross. i. Oxford: Clarendon press. 1937. ,

94. Bobrow D.G. Natural Language Input for a Computer Problem Solving System, Semantic Information Processing, Cambridge, M.I.Т., 1968.

95. Cohen D. Picture pocessing in a a picture -language machine. Nat. bureau of standards report № 7885, Washington, 1963.

96. Chomsky Noam Linguistics and cognitive science: Problem and Mysteries. In The Chomsky Turn. Ed /Asa Kasher. Cambridge, Mass.: Basil Blockwell.

97. Chomsky Noam Language and problems of knowledge /(Mass.), 1988.

98. Iomdin L. Automatic symantic analysis in the CAT-2 MT system. Saarbrucken: Institut der Angewandten informationsforshung and der Universitat des Saarlandes Working paper № 33.

99. Iorddnskaja L., Polguere A. Semantic processing for text generation. //Processing of the first international computer science con ference, HongKong, 19-21 December, 1988.

100. Froidenthal H. LINCOS. Design of a language for cosmic intercourse, Part 1, Amsterdam, I960.

101. Green P.F. BaseBall: An Automatic Question Answerer, Computers and Thought, New York, Mc-Graw-Hill, 1963.

102. Lejbniz Gottfried Whillhem /Opuscules et fragments inedits de Leibniz, 1903.

103. Lehrer A. Semantics and lexical structure. Amsterdam, 1974.

104. Noam Chomsky: Consensus and controversy. /New York, 1988.

105. Shank Roger C. Conceptual depended a theory of natural language , understanding. Cognitive psychology, 1972, Vol.3, № 4.

106. Symmons R.F. at cet. An Approach Toward Answering English Questions From Text, Proc. Fall Joint Comp Conf., New York, Sparton, 1964.

107. Talmy L. Hay language structures space. //Rudzka-Ostin (ed.), 1988. .