автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Методы повышения эффективности поиска научной информации

кандидата технических наук
Браславский, Павел Исаакович
город
Екатеринбург
год
2000
специальность ВАК РФ
05.13.16
Диссертация по информатике, вычислительной технике и управлению на тему «Методы повышения эффективности поиска научной информации»

Оглавление автор диссертации — кандидата технических наук Браславский, Павел Исаакович

Введение

1. Internet. Стили речи. Тезаурус

1.1. Internet и средства поиска информации

1.1.1. Краткая история

1.1.2. Основы построения машин поиска;

1.1.3. Российский Internet

1.1.4. Современные тенденции развития средств поиска

1.2. Стили речи и классификация текстов

1.2.1. Различные подходы к определению понятия «стиль»

1.2.2. Статистические методы в стилистике и классификация текстов

1.3. Тезаурус

1.3.1. Краткая история

1.3.2. Тезаурусы в информационном поиске

1.4. Результаты и выводы

2. Классификация документов по стилям

2.1. Подходы к решению задачи стилистической классификации

2.1.1. Система стилей

2.1.2. Методика классификации

2.2. Опытный массив документов ** "

2.3. Параметры классификации

2.3.1. Первичный набор параметров

2.3.2. Общая методика вычисления параметров

2.3.3. Формальные параметры

2.3.4. Формально-семантические параметры

2.4. Параметры опытного массива и их первичная статистическая обработка

2.5. Сокращение набора параметров

2.6. Классификация опытного массива документов

2.6.1. Условия применения процедур дискриминанта ого анализа

2.6.2. Первая классификация документов опытного массива

2.6.3. Главные компоненты - новые параметры классификации

2.7. Результаты и выводы

3. Расширение запроса с помощью тезауруса:

3.1. Описание метода

3.2. Модель тезауруса и процедура формирования запросов

3.3. Программная реализация

3.4. Результаты и выводы

4. Проверка результатов. Практические рекомендации

4.1. Стилистическая классификация документов

4.1.1. Классификация тестового массива документов

4.1.2. Возможные реализации

Введение 2000 год, диссертация по информатике, вычислительной технике и управлению, Браславский, Павел Исаакович

Эффективность научно-исследовательских работ напрямую зависит от качества их информационного обеспечения, а поиск информации является ключевым этапом любого научного исследования. На сегодняшний день глобальная сеть Internet - важнейший источник информации для всех областей знаний, однако поиск специализированной научно-технической информации при помощи Internet зачастую оказывается малоэффективным.

Сегодня с трудом верится в то, что на начальной стадии своего развития Internet был по преимуществу сетью научных и образовательных учреждений, а наиболее популярная служба Internet - WWW, - была разработана в европейском центре ядерных исследований CERN как способ объединения разнородных научных ресурсов и облегчения переходов между ними.

Один из авторов заметил, что "по мере развития Интернет обостряется парадокс: вероятность существования нужной информации возрастает, а возможность ее нахождения уменьшается" [33]. Это происходит потому, что наполнение сети очень разнородно, громадно по объему, быстро и нерегулярно обновляется, плохо поддается структуризации и управлению.

Internet унаследовал хаотичность структуры от своего предшественника - сети ARPANET, которая разрабатывалась по заказу военного ведомства США в конце 60-х - начале 70-х гг. Одним из главных требований заказчика была высокая живучесть сети, поэтому в основе ARPANET лежали полная независимость отдельных сегментов и отсутствие централизованного управления. Однако вряд ли разработчики могли тогда предположить, насколько стремительно будет развиваться этот проект. По данным Internet Software Consortium (www.isc.org), в январе 2000 года к Internet было подключено 72 398 092 машины (против 37 машин сети ARPANET в 1972 году).

Появление "всемирной паутины" (WorldWide Web), новых программ и протоколов; развитие средств связи и доступность персональных компьютеров сделали достаточно закрытую до этого сеть привлекательной для мил5 лионов новых пользователей. 1995 год был назван годом триумфа Internet. Впрочем, триумфальными для Internet можно назвать и все последующие годы.

В связи с бурным развитием Internet проблема поиска информации приобрела особую остроту и стала общезначимой. Поиск информации в Internet перестал быть темой исключительно специализированных изданий1, а службы поиска превратились в коммерчески успешные компании. По данным Nielsen Media Research, к поисковым службам Internet сегодня обращается около 71% многомиллионной армии пользователей (цит. по [23]). По результатам опросов, наиболее требовательными к качеству информационного поиска оказываются научные работники (см., например, [53]).

По сравнению с локальными информационно-поисковыми системами (ИПС) задача поиска информации в Internet значительно усложняется .

В настоящее время в Internet представлены два основных вида служб поиска информации: 1) тематические каталоги ресурсов и 2) машины поиска (МП) по ключевым словам. Эти универсальные средства обладают целым рядом недостатков с точки зрения поиска научной информации.

Процесс отнесения документа к одному из разделов тематического каталога не поддается полностью автоматизации, поэтому каталоги охватывают ограниченное количество ресурсов и «не успевают» за ростом сети.

Машины поиска по ключевым словам охватывают больше ресурсов и чаще обновляются. Однако нередко они оказываются малоэффективными с точки зрения поиска научной информации из-за большого уровня шума (ссылок на нерелевантные документы), ограниченных возможностей языков запросов и формы представления результатов поиска.

1 См., например: Быковский Е. Взгляд сверху вниз // Итоги. - 1999. - 24 августа. - С.56-57.

2 Internet можно сравнить с очень большой библиотекой, где отсутствует какая-либо специализация и хранятся самые разные книги: от научных фолиантов и поэтических сборников до телефонных справочников и каталогов «Товары - почтой». Причем книги появляются в "библиотеке" совершенно самопроизвольно и в труднопредсказуемых местах. Интересы посетителей "библиотеки" не менее разнообразны, чем ее содержание. Со всем этим должен справляться "библиограф" - поисковая служба Internet. 6

Поэтому сегодня особую актуальность приобретают исследования, направленные на повышение эффективности поиска научной информации в Internet. Решение проблемы лежит в области разработки теоретических основ, методов и средств использования слабо структурированных информационных баз в научных исследованиях.

Целью нашей работы является разработка методов повышения эффективности поиска научной информации:

1) автоматической стилистической классификации документов и

2) расширения запроса с помощью тезауруса.

Оба метода ориентированы на усиление поиска русскоязычных научных документов с помощью универсальных МП.

Для достижения указанной цели в работе поставлены и решены следующие задачи:

• разработка процедуры автоматической классификации документов по стилям;

• разработка структурной схемы машины поиска с использованием стилистического анализа;

• разработка модели расширения запроса на основе тезауруса с сильно дифференцированным набором семантических отношений;

• разработка структурной схемы поиска информации с использованием процедуры расширения запроса на основе тезауруса;

• разработка макетных версий программ, реализующих предложенные методы;

• тестирование разработанных методов;

• выработка рекомендаций по практическому использованию методов. Научная новизна работы состоит в следующем:

• разработана процедура автоматической стилистической классификации текстовых документов;

• введен показатель стилистической информативности документа; 7

• разработана модель расширения запроса на основе тезауруса с сильно дифференцированным набором семантических отношений. Разработанные методы повышения эффективности поиска научной информации реализованы в виде макетных версий программ стилистического анализа и ассистента формирования запросов на основе тезауруса. В работе предложены эффективные с точки зрения реализации структурные схемы поиска научной информации с использованием разработанных методов.

Разработанные программы прошли испытания и внедрены в компании "Конвекс" (Екатеринбург), Свердловской областной универсальной научной библиотеке им. В.Г.Белинского, НИИ ЦветМет (Екатеринбург). Результаты работы используются в научных исследованиях и учебном процессе на кафедре риторики и стилистики русского языка Уральского государственного университета и на кафедре вычислительной техники Уральского государственного технического университета.

Основные результаты и положения работы докладывались и обсуждались на XXXV Международной научной студенческой конференции «Студент и научно-технический прогресс» (Новосибирск, 1997), всероссийской конференции "Информационные технологии, системы управления и электроника" (Екатеринбург, 1997), семинаре "Методы прикладной математики и информационные технологии в многодисциплинарных исследованиях и проектах" (Омск, 1998), 30-й региональной молодежной конференции "Проблемы теоретической и прикладной математики" (Екатеринбург, 1999), четвертом и пятом рабочих совещаниях по электронным публикациям EL-PUB-99 и EL-PUB-2000 (Новосибирск, 1999 и 2000), рабочем совещании "Новые Интернет-технологии" (Петрозаводск, 2000).

Основное содержание работы опубликовано в 5 печатных и 3 электронных работах. 8

Заключение диссертация на тему "Методы повышения эффективности поиска научной информации"

12.Результаты работы прошли испытания и внедрены в компании "Конвекс" (Екатеринбург), Свердловской областной универсальной научной библиотеке им. В.Г.Белинского, НИИ ЦветМет (Екатеринбург). Результаты работы используются в научных исследованиях и учебном процессе на кафедре риторики и стилистики русского языка Уральского государственного университета и на кафедре вычислительной техники Уральского государственного технического университета-УПИ.

В заключение мы хотим поблагодарить д-ра филол. наук, профессора Тамару Вячеславовну Матвееву и канд. физ.-мат. наук, доцента Юрия Борисовича Мельникова за участие в обсуждении результатов и содержания работы; компанию «Агама» (www.agama.com) - за предоставленный модуль морфологического анализа; Михаила Щекотилова и Илью Бирюкова - за помощь в создании программ.

107

Заключение

В результате проведенных исследований предложены методы повышения эффективности поиска научной информации в Internet.

Библиография Браславский, Павел Исаакович, диссертация по теме Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)

1. Абраменко А. Ненайденный документ — потерянный документ. -Электронный офис. 1998. - №2. - В работе использовалась электронная версия: http://www.vest.msk.ru/EO/articles/2-98 04.htm.

2. Айвазян С. А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Основы моделирования и первичная обработка данных: Справ, изд. М.: Финансы и статистика, 1983.-471 с.

3. Андреев Н.Д. Статистико-комбинаторные методы в теоретическом и прикладном языковедении. JL: Наука, 1967. - 403 с.

4. Андрющенко В.М. Концепция и архитектура Машинного фонда русского языка. М.: Наука, 1989. - 196 с.

5. Ашманов И. Информация и знания: невидимая грань // Электронный офис. 1998. - №2. - В работе использовалась электронная версия: http://www.vest.msk.ru/EO/articles/2-98 02.htm.

6. Ашманов И., Руссова Н. Поисковые системы русскоязычных документов // Электронный офис. 1997. - Май/Июнь. - В работе использовалась электронная версия: http://www.vest.msk.ru/EO/articles/may july97 5.htm

7. Ашманов И. Автоматический поиск документов: осознанная необходимость // Электронный офис. 1996. - Октябрь. - В работе использовалась электронная версия: http://www.vest.msk.ru/EO/articles/eo Oktober 4.htm.

8. Барлас Л.Г. Русский язык. Стилистика. Пособие для учителей. М.: Просвещение, 1978. - 256 с.

9. Боровиков В.П. Популярное введение в программу STATISTICA. М.: КомпьютерПресс, 1998. - 267 с.

10. Браславский П.И. Распознавание стилей речи применительно к информационному поиску: постановка задачи // Математические структуры и моделирование: Сб. научн. тр., Вып. 3. / Под ред. А.К.Гуца. Омск: Омск, гос. ун-т, 1999.-С. 134-140.

11. Браславский П.И. Стилистическая классификация документов в задачах информационного поиска // Проблемы теоретической и прикладной математики: Тезисы докладов 30-ой Региональной молодежной конференции. Екатеринбург: ИММ УрО РАН, 1999. - С. 79-80.

12. Браславский П.И., Гольдштейн C.JL, Ткаченко Т.Я. Тезаурус как средство описания систем знаний// Научно-техническая информация. Сер.2, 1997. -№11. - С.16-21.

13. Васильева А.Н. Курс лекций по стилистике русского языка. Научный стиль речи. М.: Русский язык, 1976. - 189 с.

14. Виноградов В.В. Проблема авторства и теория стилей. М.: Гос. изд. худ. литературы, 1961. - 614 с.

15. Головин Б.Н. О вероятностно-статистическом изучении стилевой дифференциации языка. К.: Знание, 1964. - 21 с.

16. Головин Б.Н. Язык и статистика. М.: Просвещение, 1970. - 190 с.

17. Гринберг И., Гарбер JI. Разработка новых технологий информационного поиска // Открытие системы, 1999. - №9-10(41-42). - С 28-30.

18. Едемский М. Бродяга //Мир Internet. 1998. - №1(16). - С. 68-74.

19. Изменения в языке научной прозы/ О.Б.Сиротинина, С.А.Бах, В.А. Богданова и др. // Вопросы стилистики. Вып. 3. Саратов: Изд-во Сарат. ун-та, 1969. - С. 37-55.

20. Изменения в языке публицистики (на материале международных обзоров) / О.Б.Сиротинина, С.А.Бах, В.А.Богданова и др. // Вопросы стилистики. Вып. 3. Саратов: Изд-во Сарат. ун-та, 1969. - С. 5-36.

21. Каменнова М. Управление электронными документами: технологии и решения // Открытие системы, 1995. - №4. - С. 38-44.

22. Капустин В. Поиск информации в Интернете // Мир Internet, 1998. - №9. - С. 54-59.31 .Карташева Е. Интеллектуальные поисковые системы Excalibur // Сети, -1997.-№6.-С. 98-105.

23. Кауфман С.И. Из курса лекций по статистической стилистике. М.: МОПИ, 1970.-319 с.

24. Кешелава В. Поисковые системы для Интернет // PC Week/RE, 1997. -№10. - С.22-27.

25. Ким Дж.-О., Мьюллер Ч.У. Факторный анализ: статистические методы и практические вопросы // Факторный, дискриминантный и кластерный анализ: Пер. с англ. М.: Финансы и статистика, 1989. - С. 5-77.

26. Кияк Т.Р. Лингвистические аспекты терминоведения. К.: УМК ВО, 1989.- 104 с.

27. Клекка У.Р. Дискриминантный анализ // Факторный, дискриминантный и кластерный анализ: Пер. с англ. М.: Финансы и статистика, 1989. - С. 78138.

28. Клочкова Э.А. О влиянии формы разговорной речи на распределение классов слов // Русская разговорная речь. Сб. науч. трудов. Саратов: Изд-воСГУ, 1970.-С. 126-134.

29. Колмановская Е. Что и как найти в русском Internet? //Мир ПК 1999. -№10.-С. 70-73.

30. Кожина М.Н. К основаниям функциональной стилистики. Пермь: Б. и., 1968.-251 с.

31. Кожина М.Н. О речевой системности научного стиля сравнительно с некоторыми другими. Пермь: Б. и., 1972. - 395 с.

32. Кожина М.Н. Стилистика русского языка. -М.: Просвещение, 1977.

33. Кожина М.Н. Стилистика русского языка. 3-е изд., перераб. и доп. М.: Просвещение, 1993. -221 с.

34. Лейчик В.М. Терминология информатики: теоретические и практические вопросы// Информатика: Итоги науки и техники. Т.2. М., 1977. - С.40-53.

35. Михайлов А.И., Черный А.И., Гилиревский P.C. Основы информатики. 2-е изд., перераб. и доп. М.: Наука, 1968. - 756 с.1.l

36. Налимов B.B. Вероятностная модель языка. О соотношении естественных и искусственных языков. 2-е изд., перераб. и доп. М.: Наука, 1979. - 303 с.

37. Никитина С.Е. Семантический анализ языка науки. (На материале лингвистики.) -М.: Наука, 1987. 141 с.

38. Пархоменко В.Ф. Работа с русскоязычными полнотекстовыми базами данных в ИПС АРТШ>АКТ // Научно-техническая информация. Сер.2. -19-98.-№1.-С. 25-29/4

39. Плешко В.В. Визуализация массивов полнотекстовых документов в информационных системах // Материалы конференции "Анализ систем на рубеже XXI века". М., 1997. - В работе использовалась электронная версия: http://is.park.ru/park/websom/ansys97.zip .

40. Прикладная статистика: Классификация и снижение размерности: Справ, изд. / С. А. Айвазян, В.М.Бухштабер, И.С.Енюков, Л.Д. Мешалкин; Под. ред. С. А.Айвазяна. М.: Финансы и статистика, 1989. - 606 с.

41. Россия в Интернете. Всероссийский опрос 1У'99./Агентство monitoring.ru. http ://www.monitoring .ru/internet/archive/1999/ГУ71 /.112

42. Россия в Интернете. Февраль 2000: Обзор отчета /Агентство monitoring.ru. -http://www.monitoring.ru/intemet/surnmarizing.html.

43. Русская разговорная речь. Фонетика. Морфология. Лексика. Жест. -М.: Наука, 1983.-238 с.

44. Садовничий В. А., Васенин В. А., Мокроусов А. А., Тутубалин А. В. Российский Интернет в цифрах и фактах. М.: Изд-во МГУ, 1999. - 148 с.

45. Сиротинина О.Б. Современная разговорная речь и ее особенности. М., 1974. 144 с.

46. Солтон Дж. Динамические библиотечно-информационные системы. -Пер. с англ. М.: Мир, 1979. - 558 с.

47. Степанов Ю.С. Стиль // Языкознане. Большой энциклопедический словарь /Гл. ред. В.Н.Ярцева. 2-е изд. - М.: Большая Российская энциклопедия, 1998.-С. 494-495.

48. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления: ГОСТ 7.25-80. Введ. 01.01.82. - М.: Изд-во стандартов, 1981. - 15 с.

49. Тезаурус научно-технических терминов / Под. ред. Шемакина Ю.И. М.: Воениздат, 1972. - 671 с.

50. Храмцов П. Информационно-поисковые системы Internet // Открытые системы, 1996. - №3(17). - С. 46-49.

51. Храмцов П. Моделирование и анализ работы информационно-поисковых систем Internet // Открытие системы, 1996. - №6(20). - С. 46-56.

52. Храмцов П.Б. Лабиринт Internet. Практическое руководство. М.: "ЭЛЕКТРОИНФОРМ", 1996. - 256 с.

53. Частотный словарь общенаучной лексики. Под общ. ред. Е.М. Степановой. М.: Изд-во МГУ, 1970. - 87 с.

54. Частотный словарь русского языка. Под. ред. Л.Н.Засориной. М.: Русс, яз., 1977.-934 с.69 .Черный А.И. Общая методика построения тезаурусов // Научно-техническая информация. Сер.2, 1968. - № 5. - С. 17-33.

55. Чибисов А. Поисковые возможности Excalibur RetrievalWare // Открытие системы, 1996. - №5(19). - С 49-53.

56. Шемакин Ю.И. Тезаурус в автоматизированных системах управления и обработки информации. М.: Воениздат, 1974. - 188 с.72.1Пехтман Н.А. Об одном принципе расширения и углубления тезауруса // Научно-техническая информация. Сер.2, 1981. - №7. - С.10-12.

57. Шрейдер Ю.А. Тезаурус в информатике и теоретической лингвистике // Научно-техническая информация. Сер.2, 1971. - №3. - С. 21-24.

58. Электронный учебник по статистике / StatSoft, Inc. 1999. -http://www.statsoft.ru/home/textbook/default.htm.

59. Aitchison J. et al. Thesaurus construction and use: a practical manual. 3rd edn. London: Aslib, 1997. - 186 p.

60. Allen R.F. Computer-Aided Stylistic Analysis. A Case Study of French Texts // Computational Linguistics. An International Handbook on Computer Oriented Language Research and Applications. Berlin: Walter de Gruyter, 1989. - P. 544-552.

61. Hert C.A. Understanding information retrieval interactions: theoretical and practical implementations. London: Ablex Publishing Corp., 1997. - 326 p.

62. Karlgren J., Cutting D. Recognizing Text Genres with Simple Metrics Using Discriminant Analysis // Proc. 15th International Conference on Computational Linguistics (COLING). Kyoto, 1994. - Vol. 2. - P. 1071-1075.

63. Kirriemuir J.W., Willet P. Use of Cluster Analysis Methods for Analysing the Outputs of Multiple-Database Searches //Electronic Library and Visual Information Research. Proc. 2nd ELVIRA Conference. London, 1995. - P. 117-126.

64. Schwarz С. Web Search Engines // Journal of the American Society for Information Science. 1998. - №49(11). - P. 973-982.