欢迎来到天天文库
浏览记录
ID:57012266
大小:672.50 KB
页数:50页
时间:2020-07-26
《互联网信息资源检索概论课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第2章第2章互联网信息检索概论2.1互联网信息检索类型和特点2.2互联网信息检索原理之一——信息组织2.3互联网信息检索原理之二——信息查询2.4互联网检索工具的性能评价2.1互联网信息检索的类型和特点2.1.1互联网信息检索的类型2.1.2互联网信息检索的特点2.1.1互联网信息检索的类型1、“顺链而行”的浏览基于互联网“超链接”的技术特点,用户在浏览网页时,可以非常方便地利用超文本文件中的链接从一个网页跳转到另一个相关网页。这些类似于传统文献检索中的“追溯检索”,但是检索效率已大大提升。追踪网页的超链接,用户可以一
2、轮一轮不断地扩大检索范围,在很短的时间内获得大量相关信息。在互联网发展初期,“顺链浏览”的人工浏览方式是互联网信息检索最主要的手段,而浏览器的“书签”(收藏夹)功能是成为该阶段被使用得最多的功能之一。马云与黄页1995年4月,马云和妻子再加上一个朋友,凑了两万块钱,专门给企业做主页的杭州海博网络公司就这样开张了,网站取名“中国黄页”,成为中国最早的互联网公司之一。其后不到三年时间,他们利用该网站赚到了500万元。中国黄页2009年6月1日,网站正式上线,完全公益性网站,不收任何费用!人们对互联网信息的寻找,从最原始的“
3、顺链浏览”到黄页等早期检索工具,实现了第一个飞跃。互联网黄页本质上就是一种目录型检索工具。2、基于目录型检索工具的互联网信息检索目录型检索工具,也被称为网络资源目录或网络主题指南,它是一种基于人工的检索工具,由人工发现、抓取、辨别互联网信息,依靠编目、标引人员的知识,按照图书分类、学科分类或其他分类依据的体系,建立主题树分层目录,将采集、筛选后的信息分门别类地放入各大类或子类下面,用户通过逐级浏览这些目录来查询自己所需要的内容。最具代表的互联网目录型检索工具当属“yahoo”(雅虎),是由斯坦福大学的研究生杨致远(Je
4、rryYang)和DavidFilo与1993年创立的。互联网刚开始发展时,他们在网上冲浪时,逐渐把自己喜爱的站点编成一个名单以便寻找,并将这一名单在网上公布,供网友使用,这就是雅虎的前身,也是目录型检索工具的工作原理。张朝阳在中国创办“搜狐”,也是比较成功典型的互联网目录型检索工具。优点:人工参与度高,网络资源目录的组织编排符合人们所熟悉的知识分类体系,检索目标性相对较强,提供的检索结果准确性也较高。缺点:信息涵盖量不大,更新能力有限,相对成本较高。面临挑战:在互联网发展早期,为人们检索互联网站点提供了极大的方便,但
5、随着互联网的持续发展,它的缺点也越来越明显,其地位收到了以Google为代表的搜索引擎的挑战。时过境迁,雅虎和搜狐都已经发展成了门户网站。补充:门户网站中国四大门户网站:新浪、网易、搜狐、腾讯门户网站:又被称为链接页面,是通向某类综合性互联网信息资源并提供相关信息服务的应用系统。发展前景:虽然目录型检索工具在当今互联网信息检索界的地位已不如从前,但仍是一支不可忽视的力量。比如在2004年,百度公司收购hao123,hao123是一个个人维护的目录型检索工具,它成为了相当一部分上网用户的“入口”,许多对上网无从下手的人,
6、最需要的就是这样的导航网站,如今360也开发了360网址。3、基于索引型检索工具的互联网信息检索随着互联网信息量的急剧增加,仅以“网站”为信息基本单元的检索方式已经不能满足更精细的检索需求,于是基于“页面”为信息基本单元的检索方式成为主流。最具代表性的索引型网络检索工具就是搜索引擎搜索引擎原理利用一个成为Robot的程序自动访问Web站点,提取站点上的网页,并根据网页中的链接进一步提取其他网页,并将搜集到的网页加入到搜索引擎的数据库中,并建立索引,供用户检索使用。然后用户输入关键字之后进行检索。优点充分利用了计算机的处
7、理能力,对于规模巨大的互联网信息资源的索引和检索具有强大的优势,使得人们可以用更少的时间检索到更广阔的互联网信息。缺点1.检索噪音问题。使用搜索引擎检索某个关键词或关键词组合,通常会返回大量检索结果,逐一浏览这些结果对用户来说是不现实的。搜索引擎不断改进算法,使得最满足检索需求的结果排序靠前,取得了一定的效果,但是仍不能完全令人满意。2、索引非文件形式的互联网信息资源的能力有限,为了保证Robot抓取网页的效率,让其不至于迷失在无尽的链接中无法返回,通常Robot在漫游各个网站时会受到目录深度的限制,较大搜索引擎的ro
8、bot一般也就能顺链到一个网站的4-5层页面而已。4、其他互联网检索工具①元搜索引擎。它弥补了搜索引擎的不足,他不存在Robot,也不存在存放网页的数据库,当用户检索一个关键词时,它把用户的检索请求转换成其他搜索引擎所能接受的命令格式,并发送访问数个搜索引擎来检索这个关键词,这些搜索引擎的结果经过处理后再返回给用户。优点:扩大检索
此文档下载收益归作者所有