автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Построение систем поиска информации, основанных на семантике языка

кандидата технических наук
Теряев, Антон Александрович
город
Санкт-Петербург
год
2002
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Построение систем поиска информации, основанных на семантике языка»

Оглавление автор диссертации — кандидата технических наук Теряев, Антон Александрович

Введение.

§ 1. Состояние вопроса, обзор литературы.

1. Обзор поисковых систем.

1.1. Каталоги (директории).

1.2. Машины \¥еЬ-поиска.

§2. Цель работы.

§3. Краткое содержание диссертации.

Глава I. Семантический анализ.

§ 1. Семантические отношения.

§2. Иерархия базисных понятий.

§3. Семантика предложения.

§4. Выводы по первой главе.

Глава II. Семантика языка и поисковые системы.

§ 1. Оптимизация текстов.

1. Разрешение неоднозначностей.

2. Замена местоимений.

§2. Поисковые системы и классы слов.

1. Контекстный поиск.

1.1. Постановка задачи.

1.2. Решение.

2. Классификация текстов.

2.1. Постановка задачи.

2.2. Решение первое (основанное на ключевых словах).

2.3. Решение второе (основанное на ключевых классах слов).

2.4. Решение третье (совместное).

§3. Поисковые системы, основанные на семантике русского языка.

1. Выделение словосочетаний из предложений.

2. Построение семантической сети.

§4. Выводы по второй главе.

Глава III. Практические исследования.

§ 1. Сравнение решений для задачи классификации текстов.

1. Решения, основанные только на словах и только на классах.

2. Сравнение решений, основанных только на словах и на словах и классах.

§2. Поисковые системы, основанные на семантике русского языка.

1. Описание работающей поисковой системы.

2. Поисковый образ документа.

§3. Выводы по третьей главе.

Выводы по диссертации в целом.

Введение 2002 год, диссертация по информатике, вычислительной технике и управлению, Теряев, Антон Александрович

§1. Состояние вопроса, обзор литературы.

На заре возникновения ЭВМ мало кто предполагал, что их основными задачами будет хранение и отображение информации. Сейчас, когда компьютер, не подключенный к Internet - редкость, это особенно заметно.

Сегодня в Сети насчитывается 100 млн. серверов, рабочих станций, модемных пулов провайдеров, различных устройств с прямым подключением к Internet. Количество документов в Internet приближается к 600 млрд. С каждым днём, количество этих ресурсов неуклонно растет, вместе с этим растет и потребность пользователя в эффективных автоматических средствах их обработки: поисковых системах, машинных переводчиках, средствах автоматического реферирования, тематических классификаторах и т.п. Нельзя не отметить, что средств таких на сегодняшний день немного, а эффективных (обеспечивающих скорость и качество одновременно) практически нет [38, 39].

В настоящее время большинство популярных систем поиска в Интернет имеют централизованную архитектуру. Применение централизованной архитектуры имеет ряд недостатков, таких как низкая масштабируемость и надежность системы, потребность в мощном hardware.

Поэтому все больше внимания привлекает использование распределенных поисковых систем, которые лишены недостатков присущих централизованным системам. В такой системе все множество документов распределено по множеству коллекций, размещенных в различных узлах сети. Каждая из коллекций имеет относительно небольшой объем (сравнивая со случаем централизованной поисковой системой с таким же объемом проиндексированной информации, что и у рассматриваемой распределенной). И могут иметь независимых администраторов, что позволяет больше контролировать содержимое коллекции и использовать более сложные методы обработки запросов в рамках отдельной коллекции.

Однако использование распределенных систем также не лишено своих проблем. Для того чтобы снизить нагрузку на сеть и повысить эффективность выполнения поиск по запросу выполняется не во всех коллекциях, а только в некотором подмножестве существующих коллекций. Качество выбора этого подмножества является критическим фактором для общего качества поиска. Выбор делается на основе некоторых описаний коллекций, которые доступны централизованно. Исходя из этих предпосылок, тема классификации текстов становится еще более актуальной.

Объём проиндексированных поисковыми системами документов составляет несколько миллиардов, то есть 0,15-0,25% от общего количества ресурсов. Но даже это число нельзя назвать маленьким. Задача, стоящая перед поисковыми системами, - помочь пользователю сориентироваться в этом море информации. Конкуренция, существующая между поисковыми серверами, стимулирует развитие технологий поиска и классификации. Однако никаких качественных скачков не произошло до сих пор. Основной упор делается на увеличение количества проиндексированных документов, а не на качество поиска в них [76, 78, 80, 89, 90, 93, 94].

Ставшие традиционными средства контекстного поиска по вхождению слов в документ зачастую не обеспечивают адекватного выбора информации по запросу пользователя.

Основная проблема заключается в сложности точной формулировки запроса - подбора ключевых слов, которые предстоит искать в телах документов. Это может быть связано с рядом причин, как, то: недостаточным знанием пользователем терминологии предметной области, наличием в языке многозначных и синонимичных слов которые могут встречаться как в текстах, так и в самом запросе.

Другая фундаментальная причина заключается в том, что иногда пользователь не знает точно, какую именно информацию ему хотелось бы получить, имея лишь общее представление о границах своих интересов. Так, например, пытаясь расширить свои познания в области компьютерной лингвистики, на поисковом сервере AltaVista вы просто получите список из сотен тысяч документов, содержащих слова "computer" и "linguistic". А ведь хотелось бы расклассифицировать найденный материал по тематическим группам, отражающим, к примеру, основные событиям и разработки в этой области!

Существующие поисковые системы пренебрегают этими проблемами. Только совсем недавно, некоторые зарубежные поисковые системы стали учитывать при поиске синонимичные слова. Максимум, на что способны в этом плане российские поисковые системы - это перевести слово в именительный падеж. Однако стоит отметить, что в Сети можно найти демонстрационные поисковые средства, которые (со слов авторов) в некоторой степени решают данные задачи [16-28, 58, 62].

Существует множество направлений для решения этих задач, большинство из них сводится к попытке уловить хоть какой-нибудь смысл в тексте [1, 4, 15, 16, 11, 60, 73, 37, 5, 15, 36, 54, 57].

Исходя из всего этого, можно сделать вывод, что развитие поисковых систем, в частности, поисковых машин в Internet, происходит на фоне слабой развитости лингвистического обеспечения и алгоритмов, способных к синтактико-семантическому анализу естественно-языкового текста. Вследствие этого в коммерческих информационно-поисковых системах возобладали статистические методы.

Интересно, что анализом текстов (контент-анализом) начали заниматься еще до возникновения компьютеров. Самый первый, упоминаемый в литературе, контент-аналитический опыт - это проведенный в Швеции в 18 в. анализ сборника из 90 церковных гимнов, прошедших государственную цензуру и приобретших большую популярность, но обвиненных в несоответствии религиозным догматам. Наличие или отсутствие такового соответствия и определялось путем подсчета в текстах этих гимнов религиозных символов и сравнения их с другими религиозными текстами, в частности запрещенных церковью текстами «моравских братьев». В конце 19 - начале 20 вв. в США появились первые контент-аналитические исследования текстов массовой информации. Авторы задавались целью продемонстрировать прискорбное «пожелтение» тогдашней нью-йоркской прессы [46].

Несомненно, что будущее поисковых средств должно быть связано с системами искусственного интеллекта - системами обработки знаний. Новейшие достижения в компьютерной лингвистике уже сейчас позволяют строить такие связи. Анализ текстов не должен сводиться к простому подсчету ключевых слов. Ведь за каждым словом, фразой, предложением стоит определённый смысл, не учитывать который, было бы неразумно.

Заключение диссертация на тему "Построение систем поиска информации, основанных на семантике языка"

Выводы по диссертации в целом.

Разработка новых информационно-поисковых систем не завершена. Причем как на стадии написания коммерческих систем, так и на стадии исследований. За прошедшее время была рассмотрена только небольшая часть возможных решений. Однако многие проблемы, которые стоят перед разработчиками информационно-поисковых систем, не решены до сих пор.

В данной работе показаны новые пути к решению этой проблемы. Упор делается на применение знаний о структуре естественного языка. Только идя в этом направлении, при разработке систем поиска, мы можем добиться существенных результатах. Развитие поисковых систем напрямую связанно с развитием компьютерной лингвистики.

В ходе исследований были получены следующие теоретические и практические результаты:

1. Разработан алгоритм поиска и классификации текстов, основанный на классах слов (см. §2 главы 2). Разбиение множества существительных по базисным классам было произведено ранее. Поправки постоянно вносятся и в настоящее время. На данный момент существует порядка 2000 классов базисных существительных. Множество всех классов представляет собой древовидную структуру типа РОД-ВИД. Алгоритм был реализован на языке PHP и исследован. Исследования показали уменьшение количества ошибок в задаче классификации текстов на 30% (см. §1 главы 3). Данный результат показывает состоятельность данного алгоритма для задач поиска.

2. Разработан алгоритм замены местоимений (см. §1 главы 2), основанный на морфологических характеристиках слов. Исследования точности данного алгоритма показывают, что он является приемлемым для реализации в информационно-поисковых системах. Показаны пути решения проблемы многозначности слов - омонимии (см. §1 главы 2).

3. Показаны пути нахождения связных словосочетаний в тексте, что может значительно увеличить адекватность ответа поисковой системы на сложные поисковые запросы (см. §3 главы 2). Разработана поисковая система, позволяющая пользователю строить поисковый запрос в интерактивном режиме, отталкиваясь от одного слова и приходя к сложным поисковым выражениям (см. §2 главы 3). В данной экспериментальной системе реализовано:

1) замена местоимений на обозначающие их существительные;

2) решение многозначности слов;

3) возможность нечеткого поиска, основанного на классах слов;

4) возможность добавления в базу произвольных русскоязычных документов;

5) составление семантической сети текста и поиск по ней.

Полученные результаты имеют практическое и теоретическое значение. Построенные алгоритмы могут с успехом применяться в задачах контент-анализа текстов, в частности для информационно-поисковых систем.

Библиография Теряев, Антон Александрович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Антонов A.B., Е. С. Курзннер. Автоматическое определение тематики большого необработанного текстового массива. // труды Международного семинара Диалог'2002, том 2. Прикладные проблемы.

2. Апресян Ю.Д. «Лексическая семантика» (избранные труды), т. 1 М., 1995.

3. Апресян Ю.Д. Избранные труды, т. 1. Лексическая семантика. Синонимические средства языка. // М. 1995.

4. Ашманов И.С., Власова А.Е., Зоркий К.П., Иванов А.П., Калинин А.Л. Технология фильтрации содержания для Интернет. // труды Международного семинара Диалог'2002, том 2. Прикладные проблемы.

5. Баглей С.Г. Методы поиска документов, подобных документу-образцу в Интернете. // Труды Международного семинара Диалог'2001, том 2. Прикладные проблемы.

6. Баранов А.Н., Введение в прикладную лингвистику. М., 2000.

7. Боброва A.B. «Грамматика русского языка» М., 1999.

8. Болотова Л.С. и др. «Системы искусственного интеллекта» М., 1998.

9. Болотова Л.С. и др. Системы искусственного интеллекта. М., 1998.

10. Боярский К.К., Каневский Г.В., Лезин А.И., Попова А.И. Формализация знаний в гуманитарных исследованиях // Экономико-математические исследования: математические модели и информационные технологии, СПбНЦ РАН, 2000, с. 248-264.

11. В. Н. Поляков В.Н., Бодров Д.А., Точин A.B. Интерактивные методы фокусировки и расширения поиска в интеллектуальной поисковой машине. // Труды Международного семинара Диалог'2002, том 2. Прикладные проблемы.

12. Васильев В.В. Компьютерное понимание текстов. М., 1988.

13. Васильев Л.М. Современная лингвистическая семантика. // М. 1990.

14. Гак В.Г. Валентность. //Лингвистический энциклопедический словарь. М. 1990.

15. Галина И.В, Зацман И.М. О постановке проблемы семантического поиска научной информации в электронных библиотеках. // Труды Международного семинара Диалог'2001, том 2. Прикладные проблемы.

16. Ермаков А.Е. Проблемы полнотекстового поиска и их решение // Мир ПК.-2001,-N5.

17. Ермаков А.Е. Тематический анализ текста с выявлением сверхфразовой структуры // Информационные технологии. 2000. -N11.

18. Ермаков А.Е., Плешко В.В. Ассоциативная модель порождения текста в задаче классификации // Информационные технологии. 2000. - N 12.

19. Ермаков А.Е., Плешко В.В. Ассоциативная модель смысла текста в прикладных задачах компьютерного анализа полнотекстовых документов. // Русский язык: исторические судьбы и современность. Международный конгресс. Труды и материалы. Москва, МГУ, 2001.

20. Ермаков А.Е., Плешко В.В. Ассоциативная семантическая сеть: статистическая модель восприятия и порождения текста // Труды Международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. Том 2. Аксаково, 2001.

21. Ермаков А.Е., Плешко B.B. Семантическая сеть текста в задачах аналитика. // Информатизация и информационная безопасность правоохранительных органов: XI Международная научная конференция. Сборник трудов Москва, 2002. - С. 343-347.

22. Ермаков А.Е., Плешко В.В. Синтаксический разбор в системах статистического анализа текста. // В печати.

23. Ермаков А.Е., Плешко В.В. Тематическая навигация в полнотекстовых базах данных. // Мир ПК. 2001. - N 8.

24. Ермаков А.Е., Харламов A.A. Применение динамической нейронной сети для распознавания речи. // Нейрокомпьютеры. 2000. - N 1.

25. Жигалов В.А. Как нам обустроить поиск в сети? // Открытые системы. Вып. 12. М, 2000.

26. Жигалов В.А. Об опыте разработки системы построения ЕЯ-интерфейсов к базам данных // Труды Международного семинара Диалог-98 по компьютерной лингвистике и ее приложениям. Том 2. Казань, 1998.

27. И. В. Галина. Вопросы семантического поиска в интегрированных (вербально-образных) системах, организованного по параметру «цветовая палитра». // Труды Международного семинара Диалог'2002, том 2. Прикладные проблемы.

28. Иомдин JI. Автоматическая обработка текста на естественном языке: модель согласования. М., 1990.

29. Каневский Е.А., Клименко E.H., Тузов В.А. «Об одном подходе к классификации прилагательных» в кн.: Труды Международного семинара Диалог-2000 по компьютерной лингвистике и ее приложениям, т. 2 - г. Протвино, 2000 - с. 162-167.

30. Кашелава В. Поисковые системы для Интернет. // PCWEEK/RE, N 10, 1997.

31. Кашелава В. Поисковые системы. // PCWEEK/RE, N 21, 1997.

32. Кириченко K.M., Герасимов М.Б. Обзор методов кластеризации текстовой информации. // Труды Международного семинара Диалог'2001, том 2. Прикладные проблемы.

33. Козеренко Е.Б. Функциональная семантика в компьютерных решениях. // Труды Международного семинара Диалог'2002, том 1. Теоритические проблемы.

34. Корхов A.B. Использование формализации естественных языков в задаче автоматического поиска. Деп. в ВИНИТИ, М.: № 3892-В99.

35. Корхов A.B., Корхова О.В. Алгоритм решения задачи автоматического поиска с использованием метода формализации русского языка. Деп. в ВИНИТИ, М.: № 70-В01.

36. Корхова О.В. Метод формализации русского языка в построении баз знаний и автореферировании // Труды XXXII научной конференции факультета ПМ-ПУ СПбГУ. СПб., 2001.

37. Корхова О.В. Формализация естественных языков как метод машинного перевода. Деп. в ВИНИТИ, М.: № 3893-В99.

38. Кузнецов И.П., Кузнецов В.П., Мацкевич А.Г. «Система выявления из документов значимой информации на основе лингвистических знаний в форме семантической сети» в кн.: Труды Международного семинара

39. Диалог-2000 по компьютерной лингвистике и ее приложениям, т. 2 г. Протвино, 2000 - с. 232-234.

40. Лезин Г.В., Боярский К.К., Каневский Е.А., Попова А.И. Анализ текстов: представление и обработка концептуальной информации // Труды международного семинара Диалог'97 по компьютерной лингвистике и ее приложениям. Ясная Поляна, 1997, с. 170-174.

41. Лезин Г.В., Боярский К.К., Каневский Е.А., Попова А.И. Программирование концептуальной обработки текстов // Информационные технологии в гуманитарных и общественных науках. Вып. 3. СПб, 1996, с. 19-27.

42. Липинский Г.В. Russian Context Optimizer: путь к возможностям Oracle interMedia в русскоязычных базах данных. // Доклад на XII конференции АПО/ROUG, 1 сентября 2000 г.

43. Мангейм Дж., Б. Рич Р.К. и др. Политология: методы исследования. М., 1997.

44. Мартемьянов Ю.С. Проблемы актуального членения в исследованиях по автоматическому переводу и реферированию. М., 1981.

45. Математическая лингвистика сборник переводов - М., 1961.

46. Мельчук И.А. «Опыт теории лингвистических моделей "Смысл-текст"» М, 1999.

47. Мельчук И.А. «Русский язык в модели "Смысл-текст"» М.-Вена, 1995.

48. Михаил Бессонов, Владимир Добрынин, Игорь Кураленок, Игорь Некрестьянов. «Распределенный поиск в семействе тематических коллекций. Выбор коллекций и распределение ресурсов, выделенных на поиск»

49. Муравенко Е.В. О случаях нетривиального соответствия семантических и синтаксических валентностей глагола. //Семиотика и информатика, вып. 36, 1998.

50. H.B. Майкевич. От информационного пространства к пространству знаний. Онтологии в Интернет. //Труды конференции КИИ" 98, Пугцино, Россия. -С.152-158.

51. Н.Н.Леонтьева. Слова-отношения и их роль в Представлении знаний. // Труды Международного семинара Диалог'2001, том 2. Прикладные проблемы.

52. Нелюбин Л.Л. Компьютерная лингвистика и машинный перевод. М., 1991.

53. Новиков Л.А. Семантика русского языка. // М., 1982.

54. О.И. Россеева, Ю.А. Загорулько. Организация эффективного поиска на основе онтологии. // Труды Международного семинара Диалог'2001, том 2. Прикладные проблемы.

55. Плешко В.В., Ермаков А.Е., Липинский Г.В. TopSOM: визуализация информационных массивов с применением самоорганизующихся тематических карт. // Информационные технологии. 2001. - N 8.

56. Плунгян В.А., Рахилина Е.В. Парадоксы валентностей. //Семиотика и информатика, вып. 36, 1998.

57. Попов И.В., Руссова Н.В., Скотников А.П., Фролкина H.A. Автоматизированная рубрикация энциклопедических статей. // Труды Международного семинара Диалог'2002, том 2. Прикладные проблемы.

58. Рубашкин В.Ш. «Представление и анализ смысла в интеллектуальных информационных системах» М., 1989.

59. Рябенко М. Проектирование каталога //Открытые системы. 2002 - N 2.

60. Сидоров Г.О., Гельбух А.Ф. «К вопросу установления и разрешения скрытой анафоры» в кн.: Труды Международного семинара Диалог-99 по компьютерной лингвистике и ее приложениям, т. 2 - г. Таруса, 1999 -с. 288-297.

61. Скрэгг, Г. Семантические сети как модели памяти // Новое в зарубежной лингвистике. Вып. 12. М., 1983.

62. Теньер JI. Основы структурного синтаксиса.// Пер. с франц. М., 1988.

63. Теряев А.А. Использование классов слов при построении тематических коллекций. // Процессы управления и устойчивость: Труды XXXIII научной конференции студентов и аспирантов факультета ПМ-ПУ. -СПб:. Изд-во ООП-НИИ Химии СПбГУ, 2002. с. 438-442.

64. Теряев А.А. О построении вопросно-ответной системы. // Процессы управления и устойчивость: Труды XXXII научной конференции студентов и аспирантов факультета ПМ-ПУ. СПб:. Изд-во ООП-НИИ Химии СПбГУ, 2001. с. 314-317.

65. Тузов В.А. «Компьютерная лингвистика (опыт построения компьютерных словарей)» в печати (изд-во СПбГУ).

66. Тузов В.А. «Языки представления знаний» С.-Петербург: изд-во СПбГУ, 1990.

67. Хан У., Мани И. Системы автоматического реферирования // Открытые системы. Вып. 12. М., 2000.

68. Хомский Н. «Аспекты теории синтаксиса» М., 1972.

69. Чернюгов В.В. Введение в теорию понятий. // Труды Международного семинара Диалог'2002, том 1. Теоритические проблемы.

70. Шмелев А.Д. Типы «невыраженных валентностей». //Семиотика и информатика, вып. 36, 1998.

71. Шмелев Д.Н. Проблемы семантического анализа лексики. // М., 1973.

72. Alta Vista, http://www.altavista.digital.com/. Digital Equipment Corporation, 2002.

73. Ando R.K. et al. Multidocument Summarization by Visualizing Topical Content // Proc. ANLP/NAACL 2000 Workshop on Automatic Summarization, 2000, pp. 79-88.

74. Bodi Yuwono, Savio L.Lam, Jerry H.Ying, Dik L.Lee. A World Wide Web Resource Discovery System. http://dbcll3.cs.ust.hk:8001/Index Server/doc/paper66.html.

75. Borko H., Bernier C.L. Abstracting Concepts and Methods. Academic Press, New York, 1975.

76. Frank G. Halasz. Reflection notecards: seven issues for the next generation of hypermedia systems. Communication of the acm, V31, N7, 1988, p.836-852.

77. Guha, R. V., D. B. Lenat, K. Pittman, D. Pratt, and M. Shepherd. Cyc: A Midterm Report // Communications of the ACM 33 , no. 8, 1990.

78. Hahn U., Reimer U. Knowledge-Based Text Summarization: Salience and Generalization Operators for Knowledge-Based Abstraction // Advances in Automatic Text Summarization, I. Mani and M. Maybury, eds. MIT Press, Cambridge, Mass., 1999, pp. 215-232.

79. Hutchins J. Summarization: Some Problems and Methods // Proc. Informatics 9: Meaning-The Frontier of Informatics, K.P. Jones, ed. Aslib, London, 1987, pp. 151-173.

80. Lenat, D. B. and R. V. Guha. Building Large Knowledge Based Systems. Reading, Massachusetts: Addison Wesley, 1990.

81. Lenat, D. B. Cyc: A Large-Scale Investment in Knowledge Infrastructure // Communications of the ACM 38, no. 11, 1995.

82. Lienhart R., Pfeiffer S., Effelsberg W. Video Abstracting // Comm. ACM. Vol. 40, No. 12, 1997, pp. 54-62.

83. Mani I. et al. The Tipster Summac Text Summarization Evaluation // Proc. 9th Conf. European Chapter of the November 2000.

84. Mani I., Bloedorn E. Summarizing Similarities and Differences Among Related Documents // Information Retrieval. Vol. 1, No. 1, 1999, pp. 35-67.

85. Martin Bartschi. An Overview of Information Retrieval Subjects. IEEE Computer, N5, 1985,p.67-84.

86. Michel L. Mauldin, John R.R. Leavitt. Web Agent Related Research at the Center for Machine Translation. http://fuzine.mt.cs.cmu.rdu/mlm/signidr94.html.

87. Radev D.R., McKeown K.R. Generating Natural Language Summaries from Multiple Online Sources // Computational Linguistics. Vol. 24, No. 3, 1998, pp. 469-500.

88. Salton G. et al. Automatic Text Structuring and Summarization // Information Processing & Management. Vol. 33, No. 2, 1997, pp. 193-207.

89. Tim Berners-Lee. World Wide Web: Proposal for HyperText Project. 1990.

90. Wyllys R.E. Extracting and Abstracting by Computer // Automated Language Processing, H. Borko, ed. John Wiley & Sons, New York, 1967, pp. 127-179.