автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Методы повышения эффективности поиска научной информации
Оглавление автор диссертации — кандидата технических наук Браславский, Павел Исаакович
Введение
1. Internet. Стили речи. Тезаурус
1.1. Internet и средства поиска информации
1.1.1. Краткая история
1.1.2. Основы построения машин поиска;
1.1.3. Российский Internet
1.1.4. Современные тенденции развития средств поиска
1.2. Стили речи и классификация текстов
1.2.1. Различные подходы к определению понятия «стиль»
1.2.2. Статистические методы в стилистике и классификация текстов
1.3. Тезаурус
1.3.1. Краткая история
1.3.2. Тезаурусы в информационном поиске
1.4. Результаты и выводы
2. Классификация документов по стилям
2.1. Подходы к решению задачи стилистической классификации
2.1.1. Система стилей
2.1.2. Методика классификации
2.2. Опытный массив документов ** "
2.3. Параметры классификации
2.3.1. Первичный набор параметров
2.3.2. Общая методика вычисления параметров
2.3.3. Формальные параметры
2.3.4. Формально-семантические параметры
2.4. Параметры опытного массива и их первичная статистическая обработка
2.5. Сокращение набора параметров
2.6. Классификация опытного массива документов
2.6.1. Условия применения процедур дискриминанта ого анализа
2.6.2. Первая классификация документов опытного массива
2.6.3. Главные компоненты - новые параметры классификации
2.7. Результаты и выводы
3. Расширение запроса с помощью тезауруса:
3.1. Описание метода
3.2. Модель тезауруса и процедура формирования запросов
3.3. Программная реализация
3.4. Результаты и выводы
4. Проверка результатов. Практические рекомендации
4.1. Стилистическая классификация документов
4.1.1. Классификация тестового массива документов
4.1.2. Возможные реализации
Введение 2000 год, диссертация по информатике, вычислительной технике и управлению, Браславский, Павел Исаакович
Эффективность научно-исследовательских работ напрямую зависит от качества их информационного обеспечения, а поиск информации является ключевым этапом любого научного исследования. На сегодняшний день глобальная сеть Internet - важнейший источник информации для всех областей знаний, однако поиск специализированной научно-технической информации при помощи Internet зачастую оказывается малоэффективным.
Сегодня с трудом верится в то, что на начальной стадии своего развития Internet был по преимуществу сетью научных и образовательных учреждений, а наиболее популярная служба Internet - WWW, - была разработана в европейском центре ядерных исследований CERN как способ объединения разнородных научных ресурсов и облегчения переходов между ними.
Один из авторов заметил, что "по мере развития Интернет обостряется парадокс: вероятность существования нужной информации возрастает, а возможность ее нахождения уменьшается" [33]. Это происходит потому, что наполнение сети очень разнородно, громадно по объему, быстро и нерегулярно обновляется, плохо поддается структуризации и управлению.
Internet унаследовал хаотичность структуры от своего предшественника - сети ARPANET, которая разрабатывалась по заказу военного ведомства США в конце 60-х - начале 70-х гг. Одним из главных требований заказчика была высокая живучесть сети, поэтому в основе ARPANET лежали полная независимость отдельных сегментов и отсутствие централизованного управления. Однако вряд ли разработчики могли тогда предположить, насколько стремительно будет развиваться этот проект. По данным Internet Software Consortium (www.isc.org), в январе 2000 года к Internet было подключено 72 398 092 машины (против 37 машин сети ARPANET в 1972 году).
Появление "всемирной паутины" (WorldWide Web), новых программ и протоколов; развитие средств связи и доступность персональных компьютеров сделали достаточно закрытую до этого сеть привлекательной для мил5 лионов новых пользователей. 1995 год был назван годом триумфа Internet. Впрочем, триумфальными для Internet можно назвать и все последующие годы.
В связи с бурным развитием Internet проблема поиска информации приобрела особую остроту и стала общезначимой. Поиск информации в Internet перестал быть темой исключительно специализированных изданий1, а службы поиска превратились в коммерчески успешные компании. По данным Nielsen Media Research, к поисковым службам Internet сегодня обращается около 71% многомиллионной армии пользователей (цит. по [23]). По результатам опросов, наиболее требовательными к качеству информационного поиска оказываются научные работники (см., например, [53]).
По сравнению с локальными информационно-поисковыми системами (ИПС) задача поиска информации в Internet значительно усложняется .
В настоящее время в Internet представлены два основных вида служб поиска информации: 1) тематические каталоги ресурсов и 2) машины поиска (МП) по ключевым словам. Эти универсальные средства обладают целым рядом недостатков с точки зрения поиска научной информации.
Процесс отнесения документа к одному из разделов тематического каталога не поддается полностью автоматизации, поэтому каталоги охватывают ограниченное количество ресурсов и «не успевают» за ростом сети.
Машины поиска по ключевым словам охватывают больше ресурсов и чаще обновляются. Однако нередко они оказываются малоэффективными с точки зрения поиска научной информации из-за большого уровня шума (ссылок на нерелевантные документы), ограниченных возможностей языков запросов и формы представления результатов поиска.
1 См., например: Быковский Е. Взгляд сверху вниз // Итоги. - 1999. - 24 августа. - С.56-57.
2 Internet можно сравнить с очень большой библиотекой, где отсутствует какая-либо специализация и хранятся самые разные книги: от научных фолиантов и поэтических сборников до телефонных справочников и каталогов «Товары - почтой». Причем книги появляются в "библиотеке" совершенно самопроизвольно и в труднопредсказуемых местах. Интересы посетителей "библиотеки" не менее разнообразны, чем ее содержание. Со всем этим должен справляться "библиограф" - поисковая служба Internet. 6
Поэтому сегодня особую актуальность приобретают исследования, направленные на повышение эффективности поиска научной информации в Internet. Решение проблемы лежит в области разработки теоретических основ, методов и средств использования слабо структурированных информационных баз в научных исследованиях.
Целью нашей работы является разработка методов повышения эффективности поиска научной информации:
1) автоматической стилистической классификации документов и
2) расширения запроса с помощью тезауруса.
Оба метода ориентированы на усиление поиска русскоязычных научных документов с помощью универсальных МП.
Для достижения указанной цели в работе поставлены и решены следующие задачи:
• разработка процедуры автоматической классификации документов по стилям;
• разработка структурной схемы машины поиска с использованием стилистического анализа;
• разработка модели расширения запроса на основе тезауруса с сильно дифференцированным набором семантических отношений;
• разработка структурной схемы поиска информации с использованием процедуры расширения запроса на основе тезауруса;
• разработка макетных версий программ, реализующих предложенные методы;
• тестирование разработанных методов;
• выработка рекомендаций по практическому использованию методов. Научная новизна работы состоит в следующем:
• разработана процедура автоматической стилистической классификации текстовых документов;
• введен показатель стилистической информативности документа; 7
• разработана модель расширения запроса на основе тезауруса с сильно дифференцированным набором семантических отношений. Разработанные методы повышения эффективности поиска научной информации реализованы в виде макетных версий программ стилистического анализа и ассистента формирования запросов на основе тезауруса. В работе предложены эффективные с точки зрения реализации структурные схемы поиска научной информации с использованием разработанных методов.
Разработанные программы прошли испытания и внедрены в компании "Конвекс" (Екатеринбург), Свердловской областной универсальной научной библиотеке им. В.Г.Белинского, НИИ ЦветМет (Екатеринбург). Результаты работы используются в научных исследованиях и учебном процессе на кафедре риторики и стилистики русского языка Уральского государственного университета и на кафедре вычислительной техники Уральского государственного технического университета.
Основные результаты и положения работы докладывались и обсуждались на XXXV Международной научной студенческой конференции «Студент и научно-технический прогресс» (Новосибирск, 1997), всероссийской конференции "Информационные технологии, системы управления и электроника" (Екатеринбург, 1997), семинаре "Методы прикладной математики и информационные технологии в многодисциплинарных исследованиях и проектах" (Омск, 1998), 30-й региональной молодежной конференции "Проблемы теоретической и прикладной математики" (Екатеринбург, 1999), четвертом и пятом рабочих совещаниях по электронным публикациям EL-PUB-99 и EL-PUB-2000 (Новосибирск, 1999 и 2000), рабочем совещании "Новые Интернет-технологии" (Петрозаводск, 2000).
Основное содержание работы опубликовано в 5 печатных и 3 электронных работах. 8
Заключение диссертация на тему "Методы повышения эффективности поиска научной информации"
12.Результаты работы прошли испытания и внедрены в компании "Конвекс" (Екатеринбург), Свердловской областной универсальной научной библиотеке им. В.Г.Белинского, НИИ ЦветМет (Екатеринбург). Результаты работы используются в научных исследованиях и учебном процессе на кафедре риторики и стилистики русского языка Уральского государственного университета и на кафедре вычислительной техники Уральского государственного технического университета-УПИ.
В заключение мы хотим поблагодарить д-ра филол. наук, профессора Тамару Вячеславовну Матвееву и канд. физ.-мат. наук, доцента Юрия Борисовича Мельникова за участие в обсуждении результатов и содержания работы; компанию «Агама» (www.agama.com) - за предоставленный модуль морфологического анализа; Михаила Щекотилова и Илью Бирюкова - за помощь в создании программ.
107
Заключение
В результате проведенных исследований предложены методы повышения эффективности поиска научной информации в Internet.
Библиография Браславский, Павел Исаакович, диссертация по теме Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
1. Абраменко А. Ненайденный документ — потерянный документ. -Электронный офис. 1998. - №2. - В работе использовалась электронная версия: http://www.vest.msk.ru/EO/articles/2-98 04.htm.
2. Айвазян С. А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Основы моделирования и первичная обработка данных: Справ, изд. М.: Финансы и статистика, 1983.-471 с.
3. Андреев Н.Д. Статистико-комбинаторные методы в теоретическом и прикладном языковедении. JL: Наука, 1967. - 403 с.
4. Андрющенко В.М. Концепция и архитектура Машинного фонда русского языка. М.: Наука, 1989. - 196 с.
5. Ашманов И. Информация и знания: невидимая грань // Электронный офис. 1998. - №2. - В работе использовалась электронная версия: http://www.vest.msk.ru/EO/articles/2-98 02.htm.
6. Ашманов И., Руссова Н. Поисковые системы русскоязычных документов // Электронный офис. 1997. - Май/Июнь. - В работе использовалась электронная версия: http://www.vest.msk.ru/EO/articles/may july97 5.htm
7. Ашманов И. Автоматический поиск документов: осознанная необходимость // Электронный офис. 1996. - Октябрь. - В работе использовалась электронная версия: http://www.vest.msk.ru/EO/articles/eo Oktober 4.htm.
8. Барлас Л.Г. Русский язык. Стилистика. Пособие для учителей. М.: Просвещение, 1978. - 256 с.
9. Боровиков В.П. Популярное введение в программу STATISTICA. М.: КомпьютерПресс, 1998. - 267 с.
10. Браславский П.И. Распознавание стилей речи применительно к информационному поиску: постановка задачи // Математические структуры и моделирование: Сб. научн. тр., Вып. 3. / Под ред. А.К.Гуца. Омск: Омск, гос. ун-т, 1999.-С. 134-140.
11. Браславский П.И. Стилистическая классификация документов в задачах информационного поиска // Проблемы теоретической и прикладной математики: Тезисы докладов 30-ой Региональной молодежной конференции. Екатеринбург: ИММ УрО РАН, 1999. - С. 79-80.
12. Браславский П.И., Гольдштейн C.JL, Ткаченко Т.Я. Тезаурус как средство описания систем знаний// Научно-техническая информация. Сер.2, 1997. -№11. - С.16-21.
13. Васильева А.Н. Курс лекций по стилистике русского языка. Научный стиль речи. М.: Русский язык, 1976. - 189 с.
14. Виноградов В.В. Проблема авторства и теория стилей. М.: Гос. изд. худ. литературы, 1961. - 614 с.
15. Головин Б.Н. О вероятностно-статистическом изучении стилевой дифференциации языка. К.: Знание, 1964. - 21 с.
16. Головин Б.Н. Язык и статистика. М.: Просвещение, 1970. - 190 с.
17. Гринберг И., Гарбер JI. Разработка новых технологий информационного поиска // Открытие системы, 1999. - №9-10(41-42). - С 28-30.
18. Едемский М. Бродяга //Мир Internet. 1998. - №1(16). - С. 68-74.
19. Изменения в языке научной прозы/ О.Б.Сиротинина, С.А.Бах, В.А. Богданова и др. // Вопросы стилистики. Вып. 3. Саратов: Изд-во Сарат. ун-та, 1969. - С. 37-55.
20. Изменения в языке публицистики (на материале международных обзоров) / О.Б.Сиротинина, С.А.Бах, В.А.Богданова и др. // Вопросы стилистики. Вып. 3. Саратов: Изд-во Сарат. ун-та, 1969. - С. 5-36.
21. Каменнова М. Управление электронными документами: технологии и решения // Открытие системы, 1995. - №4. - С. 38-44.
22. Капустин В. Поиск информации в Интернете // Мир Internet, 1998. - №9. - С. 54-59.31 .Карташева Е. Интеллектуальные поисковые системы Excalibur // Сети, -1997.-№6.-С. 98-105.
23. Кауфман С.И. Из курса лекций по статистической стилистике. М.: МОПИ, 1970.-319 с.
24. Кешелава В. Поисковые системы для Интернет // PC Week/RE, 1997. -№10. - С.22-27.
25. Ким Дж.-О., Мьюллер Ч.У. Факторный анализ: статистические методы и практические вопросы // Факторный, дискриминантный и кластерный анализ: Пер. с англ. М.: Финансы и статистика, 1989. - С. 5-77.
26. Кияк Т.Р. Лингвистические аспекты терминоведения. К.: УМК ВО, 1989.- 104 с.
27. Клекка У.Р. Дискриминантный анализ // Факторный, дискриминантный и кластерный анализ: Пер. с англ. М.: Финансы и статистика, 1989. - С. 78138.
28. Клочкова Э.А. О влиянии формы разговорной речи на распределение классов слов // Русская разговорная речь. Сб. науч. трудов. Саратов: Изд-воСГУ, 1970.-С. 126-134.
29. Колмановская Е. Что и как найти в русском Internet? //Мир ПК 1999. -№10.-С. 70-73.
30. Кожина М.Н. К основаниям функциональной стилистики. Пермь: Б. и., 1968.-251 с.
31. Кожина М.Н. О речевой системности научного стиля сравнительно с некоторыми другими. Пермь: Б. и., 1972. - 395 с.
32. Кожина М.Н. Стилистика русского языка. -М.: Просвещение, 1977.
33. Кожина М.Н. Стилистика русского языка. 3-е изд., перераб. и доп. М.: Просвещение, 1993. -221 с.
34. Лейчик В.М. Терминология информатики: теоретические и практические вопросы// Информатика: Итоги науки и техники. Т.2. М., 1977. - С.40-53.
35. Михайлов А.И., Черный А.И., Гилиревский P.C. Основы информатики. 2-е изд., перераб. и доп. М.: Наука, 1968. - 756 с.1.l
36. Налимов B.B. Вероятностная модель языка. О соотношении естественных и искусственных языков. 2-е изд., перераб. и доп. М.: Наука, 1979. - 303 с.
37. Никитина С.Е. Семантический анализ языка науки. (На материале лингвистики.) -М.: Наука, 1987. 141 с.
38. Пархоменко В.Ф. Работа с русскоязычными полнотекстовыми базами данных в ИПС АРТШ>АКТ // Научно-техническая информация. Сер.2. -19-98.-№1.-С. 25-29/4
39. Плешко В.В. Визуализация массивов полнотекстовых документов в информационных системах // Материалы конференции "Анализ систем на рубеже XXI века". М., 1997. - В работе использовалась электронная версия: http://is.park.ru/park/websom/ansys97.zip .
40. Прикладная статистика: Классификация и снижение размерности: Справ, изд. / С. А. Айвазян, В.М.Бухштабер, И.С.Енюков, Л.Д. Мешалкин; Под. ред. С. А.Айвазяна. М.: Финансы и статистика, 1989. - 606 с.
41. Россия в Интернете. Всероссийский опрос 1У'99./Агентство monitoring.ru. http ://www.monitoring .ru/internet/archive/1999/ГУ71 /.112
42. Россия в Интернете. Февраль 2000: Обзор отчета /Агентство monitoring.ru. -http://www.monitoring.ru/intemet/surnmarizing.html.
43. Русская разговорная речь. Фонетика. Морфология. Лексика. Жест. -М.: Наука, 1983.-238 с.
44. Садовничий В. А., Васенин В. А., Мокроусов А. А., Тутубалин А. В. Российский Интернет в цифрах и фактах. М.: Изд-во МГУ, 1999. - 148 с.
45. Сиротинина О.Б. Современная разговорная речь и ее особенности. М., 1974. 144 с.
46. Солтон Дж. Динамические библиотечно-информационные системы. -Пер. с англ. М.: Мир, 1979. - 558 с.
47. Степанов Ю.С. Стиль // Языкознане. Большой энциклопедический словарь /Гл. ред. В.Н.Ярцева. 2-е изд. - М.: Большая Российская энциклопедия, 1998.-С. 494-495.
48. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления: ГОСТ 7.25-80. Введ. 01.01.82. - М.: Изд-во стандартов, 1981. - 15 с.
49. Тезаурус научно-технических терминов / Под. ред. Шемакина Ю.И. М.: Воениздат, 1972. - 671 с.
50. Храмцов П. Информационно-поисковые системы Internet // Открытые системы, 1996. - №3(17). - С. 46-49.
51. Храмцов П. Моделирование и анализ работы информационно-поисковых систем Internet // Открытие системы, 1996. - №6(20). - С. 46-56.
52. Храмцов П.Б. Лабиринт Internet. Практическое руководство. М.: "ЭЛЕКТРОИНФОРМ", 1996. - 256 с.
53. Частотный словарь общенаучной лексики. Под общ. ред. Е.М. Степановой. М.: Изд-во МГУ, 1970. - 87 с.
54. Частотный словарь русского языка. Под. ред. Л.Н.Засориной. М.: Русс, яз., 1977.-934 с.69 .Черный А.И. Общая методика построения тезаурусов // Научно-техническая информация. Сер.2, 1968. - № 5. - С. 17-33.
55. Чибисов А. Поисковые возможности Excalibur RetrievalWare // Открытие системы, 1996. - №5(19). - С 49-53.
56. Шемакин Ю.И. Тезаурус в автоматизированных системах управления и обработки информации. М.: Воениздат, 1974. - 188 с.72.1Пехтман Н.А. Об одном принципе расширения и углубления тезауруса // Научно-техническая информация. Сер.2, 1981. - №7. - С.10-12.
57. Шрейдер Ю.А. Тезаурус в информатике и теоретической лингвистике // Научно-техническая информация. Сер.2, 1971. - №3. - С. 21-24.
58. Электронный учебник по статистике / StatSoft, Inc. 1999. -http://www.statsoft.ru/home/textbook/default.htm.
59. Aitchison J. et al. Thesaurus construction and use: a practical manual. 3rd edn. London: Aslib, 1997. - 186 p.
60. Allen R.F. Computer-Aided Stylistic Analysis. A Case Study of French Texts // Computational Linguistics. An International Handbook on Computer Oriented Language Research and Applications. Berlin: Walter de Gruyter, 1989. - P. 544-552.
61. Hert C.A. Understanding information retrieval interactions: theoretical and practical implementations. London: Ablex Publishing Corp., 1997. - 326 p.
62. Karlgren J., Cutting D. Recognizing Text Genres with Simple Metrics Using Discriminant Analysis // Proc. 15th International Conference on Computational Linguistics (COLING). Kyoto, 1994. - Vol. 2. - P. 1071-1075.
63. Kirriemuir J.W., Willet P. Use of Cluster Analysis Methods for Analysing the Outputs of Multiple-Database Searches //Electronic Library and Visual Information Research. Proc. 2nd ELVIRA Conference. London, 1995. - P. 117-126.
64. Schwarz С. Web Search Engines // Journal of the American Society for Information Science. 1998. - №49(11). - P. 973-982.
-
Похожие работы
- Оценка нагрузки на компьютерную сеть при обработке поисковых запросов в интегрированных информационных системах
- Метод и алгоритмы интеллектуальной обработки информации в корпоративных хранилищах
- Модели и алгоритмы специализированного поиска образовательных Интернет порталов для снижения загрузки телекоммуникационной сети
- Повышение эффективности симплексного поиска в задачах стохастической оптимизации
- Модели и алгоритмы интеллектуализации поиска неисправностей в системе автоматизированного контроля гибридных объектов
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность