автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.13, диссертация на тему:Оценка качества информационно-поисковых систем Internet применительно к эффективности решения отраслевых задач

кандидата технических наук
Моллах Мухаммед Тоухидул Хок
город
Москва
год
2002
специальность ВАК РФ
05.13.13
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Оценка качества информационно-поисковых систем Internet применительно к эффективности решения отраслевых задач»

Оглавление автор диссертации — кандидата технических наук Моллах Мухаммед Тоухидул Хок

Введение.

1. Анализ научно-исследовательских и практических работ, посвященных оценкам качества поисковых систем Internet.

1.1. Состояние исследований поисковых систем Internet.

1.2. Обзор основных исследований по оценкам качества поисковых систем Internet.

1.2.1. Основные принципы функционирования поисковых систем Internet.

1.2.1.1. Типовая структурная схема информационно-поисковой системы.

1.2.1.2. Представление информационных ресурсов Internet в поисковой системе.

1.2.2. Понятие релевантности и его классификация.

1.2.3. Оценки внутренней (системной) релевантности.

1.2.4. Ранжирование списка результатов поиска с учетом индекса цитируемости.

1.2.5. Пользовательские оценки релевантности ответов на запросы и их использование для оценки качества поисковых систем.

1.2.5.1. Оценки релевантности результатов ответов на запросы пользователей.

Выводы по первой главе.

2. Методика пользовательской оценки качества поисковых систем при поиске документов в рамках узкой тематики

2.1. Постановка задачи.

2.2. Система управления качеством ISO 9000:

2.3. Методика пользовательской оценки качества поисковых систем при поиске документов в рамках узкой научной тематики.

Выводы по второй главе.

3. Экспериментальная оценка качества поисковых систем при поиске в рамках узкой железнодорожной тематики.

Выводы по третьей главе. g

4. Управление знаниями как средство повышения эффективности функционирования научных, проектно-конструкторских организаций и университетов.

4.1. Управление знаниями как научная дисциплина, элемент корпоративной культуры и как технико-экономический фактор.

4.2. Информационные порталы как инструменты реализации систем управления корпоративными знаниями.

4.2.1. Портал как средство реализации локальной и сетевой тематически узкоспециализированной поисковой системы и основы корпоративной системы управления знаниями.

4.2.2. Примеры информациойныл порталов.

4.2.2.1. Институт "Открытое общество".

4.2.2.2. HiTech Portal.

4.2.3. Программное обеспечение порталов.

4.2.4. Web-сайт как фрагмент заполнения портала научно-исследовательских, проектно-конструкторских организаций и университетов железнодорожного транспорта.

Выводы по четвертой главе.

Введение 2002 год, диссертация по информатике, вычислительной технике и управлению, Моллах Мухаммед Тоухидул Хок

Стремительное развитие телекоммуникационных и информационных систем во всех развитых странах мира опирается на интенсивные научные исследования.

Среди них заметное место занимают следующие исследования:

- усовершенствование существующих поисковых систем и разработка новых принципов построения и создание более совершенных поисковых систем [1,2];

- разработка методов оценки качества поисковых систем [3-19];

- разработка систем управления знаниями [20-27];

- разработка информационных порталов [28-33, 77];

В каждой серьезной сетевой организации обязательно существует научное подразделение, занимающееся исследованиями и работающее на перспективу [34-37].

В России информатизация в последние годы ориентирована в первую очередь на оснащение телекоммуникационными сетями и информатизационными технологиями ключевых отраслей народного хозяйства [38, 79], таких как

- Министерство связи РФ и негосударственные телекоммуникационные компании;

- Российское акционерное общество Газпром;

- Российское акционерное общество Единые Энергетические Системы;

- Министерство путей сообщения.

28 февраля 1996 года на заседании коллегии Министерства Путей Сообщения (МПС) была одобрена и принята концепция информатизации железнодорожного транспорта [78].

Информатизация должна охватить все службы железнодорожного транспорта, за счет чего предполагается получить всестороннее улучшение качества перевозок грузов и пассажиров, а также полностью перейти на централизованное управление всем комплексом перевозок и транспортных услуг.

Информатизация железнодорожного транспорта опирается на создание взаимоувязанной телекоммуникационной инфраструктуры отрасли. Основу этой инфраструктуры составляет магистральная волоконно-оптическая сеть линий связи [39].

Информатизация железнодорожной отрасли призвана решить следующую стратегическую экономичную задачу:

Снизить себестоимость перевозок и увеличить рост объема перевозок грузов к Пассажиров. Сделать это можно i ильки sa счет создания и внедрения перспективных информационных технологий во все сферы железнодорожного транспорта.

Речь идет о том, чтобы за счет развития телекоммуникаций и информатизации отрасли, а также модернизации технологической связи и железнодорожной автоматики, перейти на централизованное управление всем комплексом перевозок и транспортных услуг. Предполагается, что интегральное использование современных технологий обеспечит создание автоматизированных информационно-управляющих систем с замкнутыми циклами управления.

Реализацией программы информатизации занимается большое количество организаций, специалистов и руководителей.

Каждый департамент и управление, рассматривая свое хозяйство как отдельную отрасль и опираясь на магистральную телекоммуникационную сеть ТрансТелеКом, на локальные сети и информационные системы своих низовых подразделений, создают свою единую информационную систему [40].

В каждом департаменте разработана своя концепция автоматизированной системы управления.

Министерство Путей сообщения имеет ряд научно-исследовательских институтов.

ВНИИЖТ - Всероссийский научно-исследовательский институт железнодорожного транспорта;

ВНИИУП - Всероссийский научно-исследовательский институт управления на железнодорожном транспорте России;

ВНИИЖГ - Всероссийский институт железнодорожной гигиены;

ЦНИИТЭИ - Центральный научно-исследовательский институт информации и технико-экономических исследований железнодорожного транспорта.

Департаменты и управления имеют свои проектные институты и и /- „ тт npGCICTIIC XCIICTpyivTOpCKKC Grwpu, ^аоидш. Дсиархамсиг кадриь и учеиных заведений управляет 15 университетами и десятками средних учебных заведений.

В задачу НИИ, проектных и конструкторских организаций входит отслеживание мировых достижений во всех областях железнодорожного транспорта, научная разработка и внедрение новых эффективных устройств, материалов, алгоритмов управления и интеграция всего нового в реформируемую систему железнодорожного транспорта.

Цель информатизации состоит в повышении управляемости железнодорожного транспорта через использование современных информационных технологий и создание замкнутых управляющих систем. В конечном счете, через информатизацию решается экономическая задача -резкое снижение издержек производства, сокращение числа работающих на 500 тыс. человек.

Для университетов путей сообщения эта задача также является чрезвычайно важным условием обеспечения высокого уровня подготовки специалистов.

В работах по информатизации железнодорожного транспорта существует достаточно острая необходимость повысить эффективность использования ресурсов Internet в повседневной работе научноисследовательских, проектных организаций и университетов железнодорожного транспорта.

Общение с ресурсами Internet осуществляется через информационно-поисковые службы, которые обеспечивают поиск информации при помощи ключевых слов и фраз.

Понятно, что специалиста, работающего по любой транспортной тематике, интересует в первую очередь его узкая специфическая область знаний. Известно, что все поисковые системы и сетевые базы данных первоначально создавались как специализированные под некоторую конкретную область знаний. Как правили, эта область знаний не была нацелена на железнодорожную тематику.

Данная работа рассчитана на разработку методики, которая позволит облегчить работникам научно-исследовательских институтов и университетов железнодорожного транспорта поиск документов в ресурсах Internet в рамках узких специальных тематик.

Понятие "узкая тематика" на железнодорожном транспорте исторически сложилось и закреплено в названиях департаментов МПС, отделов научно-исследовательских институтов, кафедр Университетов Путей Сообщения, и в специальностях, по которым готовят специалистов университеты отрасли.

Узкая тематика ограничивается некоторой специфической предметной областью.

Например:

- Электроснабжение железных дорог;

- Мосты железных дорог;

- Тоннели железных дорог;

- Путь и путевое хозяйство железных дорог;

- Подвижной состав железных дорог;

- Автоматика, телемеханика и связь на железных дорог;

- Локомотивы.

Уровни узкой тематики могут быть разной ограниченности. Так тематика "Электроснабжение железных дорог" может быть заменена на две более узкие предметные тематики "Контактные сети железных дорог" и "Тяговые подстанции железных дорог".

Или тематика "Автоматика, телемеханика и связь" может быть разделена на более детальные - "Автоматика и телемеханика на железнодорожном транспорте", "Связь на железнодорожном транспорте".

Методика определения узкой предметной тематики используется библиографами при составлении алфавитно-предметных и систематических указателей [41]. Определения узкой тематики необходимо соотносить со специализированными тезаурусами [42].

Каждой узкой тематике можно поставить в соответствие некоторый минимальный набор понятий, который может четко определить эту тематику.

При поиске в Internet набор понятий определяющих "узкую" тематику задается набором ключевых слов.

Название узкой тематики, как правило, складывается исторически из опыта работы коллективов специалистов.

При работе с ресурсами Internet в рамках узкой тематики набор понятий и соответственно набор ключевых слов должны составлять наиболее опытные эксперты, работающие в рамках рассматриваемой тематики.

Из опыта и публикаций известно, что разные поисковые системы по разному работают применительно к поиску в рамках конкретной узкой тематики. Последнее относится и к любой узкой железнодорожной тематике.

Отсюда становятся актуальными разработка методики оценки поисковых систем с точки зрения пользователя, ведущего поиск по узкой железнодорожной тематике, и выбор наиболее эффективной системы для каждой тематики.

Заключение диссертация на тему "Оценка качества информационно-поисковых систем Internet применительно к эффективности решения отраслевых задач"

Основные выводы и результаты диссертационной работы

1. На основе анализа размещения информации в ресурсах Internet, тематического расслоения информационного Web-пространства, особенностей функционирования поисковых роботов и механизмов индексирования поисковых систем, а также научно-исследовательских работ по оценкам качества поисковых систем, в диссертации сделан вывод о возможности и необходимости создать упрощенную методику быстрой пользовательской оценки качества и ранжирования поисковых систем применительно к конкретным железнодорожным тематикам;

2. Предложена оценка выполнения поисковой системой декларированных правил ее собственного информационно-поискового языка;

3. Разработана оригинальная методика оценки качества информационно-поисковых систем Internet, основанная на формальном количественном анализе и не требующая анализа содержания документов.

Преимущества этой методики состоят в том, что оценка поисковых систем производится без просмотра содержания документов в результатах поиска, т.е. оценка производится быстро, а также в том, что процедуру оценки может проводить любой пользователь невысокой квалификации, т.е. методика не требует дополнительных затрат;

4. Обосновано применение обобщенного векторного критерия для внешней пользовательской оценки качества поисковых систем Internet на основе ряда составляющих показателей (коэффициент условной релевантности, коэффициент охвата и коэффициент неискаженности результатов поиска);

5. Проведена пользовательская оценка и ранжирование восемнадцати поисковых систем, применительно к работе в шести железнодорожных тематиках;

6. Экспериментальные проверки показали, что по отношению к конкретной тематике некоторые поисковые системы могут оказаться совершенно непригодными по искаженности результатов поиска;

7. Оценка и ранжирование поисковых систем по убыванию коэффициентов К"р , К" и К"ни показала, что во всех тематиках наилучшими характеристиками обладают поисковые системы NorthernLight, Lycos и MSN. В тематиках "Подвижной состав", "Электроснабжение" и "Управление движением поездов" в состав лидеров выходит также AltaVista, а в тематике "Путь и путевое хозяйство" - Yandex;

8. Коэффициенты условной релевантности для всех поисковых систем по всем тематикам оказались очень низкими. Количество релевантных документов составляет от 0,4% до 10%. Это подтверждает необходимость создавать специализированные по тематикам поисковые системы;

9. Разработан специализированный Web-сайт, рассчитанный на научных работников и специалистов-железнодорожников.

Библиография Моллах Мухаммед Тоухидул Хок, диссертация по теме Телекоммуникационные системы и компьютерные сети

1. Монти К. Поисковые узлы: Кто же лучше? Computer World Россия №21, 1997.

2. Зарубин С. Поисковые средства становятся умнее. Computer Review №3, 23 февраля 2000.

3. Харин Н., Ашманов И. Упрощённая методика сравнительной оценки технической эффективности поисковых машин Интернет. http://www.searchengines.ru/stories.php?story=01/12/l 0/2042905

4. Lawrence S., Giles С. L. Searching the World Wide Web. Science, Vol. 280: pages 98-100, 3 April 1998.

5. Lawrence S., Giles C. L. Accessibility of information on the web. Nature, Vol. 400: pages 107-109, 8 July 1999.

6. Lawrence S., Giles C. L. Searching the Web: General and Scientific Information Access. IEEE Communications, Vol. 37 (1): pages 116-122, 1999.

7. Brin S., Page L. The Anatomy of a Large-Scale Hyper textual Web Search Engine (Анатомия Крупномасштабной Гипертекстовой Поисковой Машины), http://www-db.stanford.edu/pub/papers/google.pdf

8. Hawking D., Craswell N., Bailey P., Griffiths K. Measuring the Quality of Public Search Engines. Search Engines Conference. Boston 10 April 2000. Information Retrieval, Vol. 4 (1): pages 33-59, 2001.

9. Ljosland M. Evaluation of Web search engines and the search for better ranking algorithms. Norwegian University of Science and Technology, July 9, 1999. http://citeseer.nj.nec.com/ljosland99evaluation.html

10. Mizzaro S. A new measure of retrieval effectiveness (Or: What's wrong with precision and recall). Ojala editor, International Workshop on Information Retrieval (IR'2001), pages 43-52. Infotech Oulu, Oulu, Finland, 19-21 September 2001.

11. Н.Кузнецов С.Д. Методы поиска информации внутри Интернет. М., Познавательная книга плюс, 2001.

12. Gibson, D., Klieinberg, J., Raghavan, P. Structural Analysis of the World

13. Wide Web. WWW Consortium Web Characterization Workshop, November 1998.

14. Ridings C. PageRank Explained or "Everything you've always wanted to know about PageRank", 2001.

15. Митилино С. Поиск в Internet: новые методики.http://www.kirov.ru/~polevoy/internet.html

16. Некрестьянов И. Тематико-ориентированные методы информационного поиска, http://meta.math.spbu.ru/~igor/thesis/node 1 .htmlio.Buckley С., Voorhees Е. Evaluating evaluation measures stability. In Proceedings of SIGIR'OO, New York, 2000. ACM Press.

17. Voorhees E.M, Variations in relevance judgments and the measurement of retrieval effectiveness. In Bruce W.C., Moffat A., Rijsbergen C.J., Wilkinson R., Zobel J., editors, Proceedings of SIGIR'98, pages 315-323, Melbourne, Australia, August 1998. , f

18. ЦОЛДКОВ B.H., Шонин Д.А. Использование лингвистических технологий для сбора и анализа научных данных в компьютерной сети ИНТЕРНЕТ. "Обработка текста и когнитивные технологии": Сборник, (под ред. Потаповой Р,К.), Пущино: 1999 (Вып.2) с.87-100.

19. Поляков В.Н. Функциональные возможности поисковых систем. http://www.kokoc.com/search-engines/functionalpossibilitiesofse.shtml

20. Боуэн Тед С., Сканнел Эд. Это таинственное управление знаниями. Computer world Россия №9 (170), 16.03.1999. с.27.

21. И.Зырянов М. Управление знаниями глазами тех, кто его развивает. Управление знаниями в основе консалтинга. Computer World Россия №7, 2-марта 1999 г. с. 33-36.

22. Милов Г. Что знает компания? Computer world Россия №7 (168), 2.03.1999. с.ЗЗ.

23. Данилин А. О проблематике управления знаниями. Computer world Россия: №31 (192), 24.08.1999.

24. Сенге П. Пятая дисциплина. Искусство и практика самообучающейся организации. М. ЗАО Олимп-Бизнес, 1999.

25. The Knowledge Management Scenario: Trends and Directions for 1998 -2003, Gartner Group, 1999.

26. The Knowledge Management Process: a Practical Approach, IDC, 2000.

27. Монахова E., Бочкарев А., Лукомский А., Майоров А. Управление знаниями. Рондо каприччиозо планетарного масштаба. PC Week/RE №8 6.03.2001.

28. Кистенев П. Web-порталы усмиряют информационную стихию.

29. Computer Review №13, 26 июля 2000 г. с. 14.

30. Богатова Т. Новый портал для открытого общества. PCWEEK/RE №33 (255). 12 сентября 2000.

31. Дубова Н. ЦУП для директора. Computer World Россия №48, 26 декабря 2000.

32. Максимов А. Место встречи ИТ-сообщества HiTech Portal.

33. PCWEEK/RE №28 (250). 14 августа 2000.

34. Фонтана Д. Microsoft завершает разработки Portal Server. Computer World Россия №4, 6 февраля 2001.

35. Колесов А. Технология корпоративного портала компании Hummingbird. PCWEEK/RE №22 (244), 27 июня 2000.

36. Крил П. Всепоглощающая компьютеризация (концепция IBM Almaden Research). Computer World Россия №1, 16 января 2001.

37. Нельсон М. Сети с интеллектом. Computer World Россия №3, 2 февраля 1999.

38. Коффи П., Старяевант К. и др. (сотрудники тестового центра eWeek Labs). Инновации нового века. PCWEEK/RE №48. 31 декабря 2000.

39. Елисеев И. Наука для Internet и Internet для науки. Computer World Россия №38, 17 октября 2000.

40. Елисеев И. Телекоммуникационная труба. Computer World Россия №46, 7 декабря 1999.

41. Чачин П. Сеть передачи данных МПС. PCWEEK/RE №36 (258). 3-9 октября 2000.

42. Лакин И.К. (Ред.) Концепция автоматизированной системы управления локомотивным хозяйством (АСУТ).- М.: "ТРАНСПОРТ" МПС Россия, 2000.

43. Дуплева С.Г. Антонова Т.Г. Методика составления алфавитно-предметного указателя к универсальной десятичной классификации.1. М: ГПНТБ, 1992.

44. Шибаев Е.С. (под ред.). Тезаурус информационно-поисковый по железнодорожному транспорту. ОСЖД, ЦНИИТЭИ МПС, М. 1981.

45. Садовский А. Растолкованный PageRank или все, что вы всегда хотели знать о PageRank. Перевод, Часть 1-7. http://digits.ru/promotion/articles/pagerank.html

46. Учебное пособие по линк популярити. http://www.raskrutka.net/popularityl.html

47. Link Popularity для чайников. Часть 1, 2.http ://www.searchengines.ru/stories.php?story=01 /10/24/609533 7

48. Gibson D., Kleinberg J., Raghavan P. Inferring Web communities from link topology. Proc. 9th ACM Conference on Hypertext and Hypermedia, 1998.

49. Попов И. И. Оценка и оптимизация информационных систем. М: МИФИ, 1981.

50. Трофимова И.П. Системы обработки и хранения информации. М. Изд. Высшая школа, 1989.

51. Костогрызов А.П., Петухов А.В., Щербина A.M. Основы оценки, обеспечения и повышения качества выходной информации в АСУ организационного типа. Изд. Вооружение. Политика. Конверсия. М.: 1994.

52. Сергеева И.В., Дружинин Г.В. Качество информации. М.: Радио и связь, 1990.

53. Храмцов П.Б. Поиск и навигация в Internet. Часть 1-3, Computer world Россия №18,1996, №20,1996, №22,1996.

54. Храмцов П.Б. Информационно-поисковые системы Internet. Computer world Россия №3, 1996.

55. Храмцов П.Б. Моделирование и анализ работы информационно-поисковых систем Internet. Открытые Системы №6, 1996.

56. Храмцов П.Б. Теоретические обоснование и разработка распределенной гипертекстовой информационной системы. М., Автореферат диссертации на соискание ученой степени кандидата технических наук, Pi ГУ, 1997.

57. Ефимов А.Н., Шойхер М.В. Использование информационных свойств World Wide Web для повышения эффективности средств поиска. 1999. http://www.corbina.net/~msh/papers/p2-short/index.html

58. Ефимов А.Н., Шойхер М.В. Internet как информационный массив. Применимы ли общие информационные законы к Internet? 1998. http ://www. corbina.net/~msh/papers/paper 1 /index.html

59. Тихонов В. Поисковые системы в сети Интернет. http://www.citforum.ru/internet/search/searchsystems.shtml

60. Тихонов В. Архитектура метапоисковых систем. http://www.citforum.ru/internet/search/metaping.shtml

61. Кузнецов С.Д. Доступ к базам данных с использованием технологии WWW. СУБД №5-6, 1996.

62. Кузнецов С.Д. Internet и базы данных. О взаимоотношениях WWW и СУБД. Открытые Системы. LAN Magazine №2, 1996.

63. Кузнецов С.Д. Информационная система: как ее сделать? http://www.citforum.ru/database/articles/art6.shtml

64. Лебедев А. Лучшие поисковые серверы для обнаружения научной информации в Сети, http: // www.chem.msu.su/eng/comparison.html

65. Как выбрать поисковую машину. http://www.comptek.ru/yandex/review/compare.html106

66. Солтон Дж. Динамические библиотечно-информационные системы.1. Мир, Москва, 1979.

67. Mizzaro S. Relevance: The whole history. The American Society for Information Science, 48(9): 810-832, September 1997.

68. Mizzaro S. How many relevances in information retrieval? Interacting With Computers, 10(3): 305-322, 1998.

69. Поисковая система Google, http://www.raskrutka.net/google.html

70. Chakrabartia S., Byron D., Raghavana P., Rajagopalana S., Gibson D., Kleinberg J. Automatic resource compilation by analyzing hyperlink structure and associated text.http://www7.scu.edu.aU/programme/fullpapers/l 898/coml 898.html

71. ComputeReview Internet, (ред.) Как получить прибыль от поиска в Internet, но не продаваться. ComputeReview №17, стр. 26, 2001.

72. Глудкин О.П., Горбунов Н.М., Гуров А.И., Зорин Ю.В. Всеобщее управление качеством (Total Quality Management). М.: Радио и связь, 1999.

73. Корчагин А., Машков И. Обратите внимание на ISO 9000:2000. PCWeek, №23 (245), 2000.

74. Башилов Г. Проект века бабочка однодневка. ИнфоБизнес №29, 1999.

75. Motorola снимает с орбиты спутники Iridium. Computer Review №14, 25.08.2000.

76. Коммерсант Телеком. Инвесторы не верят в спутниковую связь.

77. Коммерсант №78, 4 мая 2000. 76.0рлов С. Вертикальные и горизонтальные порталы. Источник: InfoArt News Agency, http://www.unitspace.ru/main/news/newsedl 78.htm107

78. Борк Д. Что может сделать EIP? При огромном разнообразии решений легко потеряться в огромном и запутанном мире корпоративных порталов. Computer world Россия №10 (267), 20.03.2001.

79. Чачин П. Инфотранс-2000. PCWEEK/RE №39 (261). 24-30 октября 2000.

80. Соломонович Б. Экономические процессы и информатизация. Connect! Мир связи, №9/99 (железнодорожный транспорт №9/99).

81. The Fifth Search Engine Meeting "Search Engines Today and the New Frontier". April 10-11, 2000, Boston, Massachusetts. http://www.infonortics.com/searchengines/sh00/boston2000pro.html