着互联网的高速发展

着互联网的高速发展

ID:34485412

大小:32.43 KB

页数:5页

时间:2019-03-06

着互联网的高速发展_第1页
着互联网的高速发展_第2页
着互联网的高速发展_第3页
着互联网的高速发展_第4页
着互联网的高速发展_第5页
资源描述:

《着互联网的高速发展》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、着互联网的高速发展,尤其是web技术的刺激和Internet的商业化,长个人用户从网络中获取的信息量越来越大,技术是增长的网络所能提供个人们的信息量越来越大,网上的信息几乎是呈指数级增长。人们在享受互联网带来的便利的同时,却面临着一个如何在如此海量的内容中准确、快捷地找到自己所需要的信息的问题,由此互联网搜索引擎应运而生。伴随WWW网络的出现,网上信息资源检索工具也应运而生。搜索引擎,俗称搜索机或者Web搜索器,就是这样一种新工具。本质上,它是一种网页网址检索系统,提供分类检索和关键词检索两种途径。它根据检索规则以及从其他信

2、息服务器上获取数据,并对数据进行加工处理,然后自动建立索引,并通过检索接口为用户提供信息查询服务。搜索引擎能够对WWW资源自动建立索引或进行主题分类,还能通过查询语法为用户返回匹配资源的系统.目前,网上用户使用的搜索引擎主要依赖于Crawler,Robot,worm等计算机软件程序生成的数据库,这些程序能够自动在因特网上漫游,网罗各类新网址及网页,最终生成能被用户获取的数以千万甚至上亿条记录。这样一来,通过采集标引众多网络站点,搜索引擎就形成了一种全局性网络资源控制与检索机制,它将全球WWW网络中所有信息资源作一完整的集合,

3、整理和分类,实现了用户网络检索所需信息的方便快捷。因而,搜索引擎具有检索面广,信息量大,信息更新速度快等特点。论文首先介绍了搜索引擎的历史和现状,对它的不同发展阶段的形式和特点做了一个简单的介绍。接着对搜索引擎的原理、系统结构等方面进行了一定的研究,并对作为搜索引擎技术基础的信息检索模型和、文本信息检索技术和中文分词技术做了详细论述。在此基础上对开源代码项目Lucene的历史,应用,特点,系统结构做了分析。接下来对网络爬虫Heritrix进行了深入的分析,对各个核心部件进行了详细介绍。最后构建了一个搜索引擎实例,并进行了演示

4、。1.1选题的背景与意义90年代以后互联网的迅速兴起,一方面使人们更加方便地获得信息,另一方面也更一步加快了信息的产生。尤其随着web技术的成熟化和Internet的商业化,网络向人们提供的信息量越来越大,网上的信息几乎是呈指数级增长。在信息大爆炸时代,全球信息量每隔20个月就增加一倍,而这个增长速度还会进一步增加,信息增长呈现速度惊人、来源广泛、种类繁多、数量巨大的特点。据统计,2006年全球制造、复制出的数字信息量共计1610亿GB,标志人类进入了前所未有的信息增长时期。这些数字信息大约是现有书籍所含信息的300万倍,如

5、果将书籍排列起来,总长度为地球到太阳距离(约1.5亿公里)的12倍。IDC报告指出,至2010年,这个数字将猛增到6倍,达9880亿GB,年复合增长率为57%[1]。面对极度膨胀的信息量,人们感受到“信息爆炸”、“混沌信息空间(InformationChaoticSpace)”和“数据过剩(DataGult)”[2]的巨大压力。来自美国互联网研究机构Netcraft发布的最新调查结果显示,全世界活跃网站数量迄今已超过6.44亿个。Netcraft调查表明,2012年3月份全球的活跃网站数量为644,275,754个,相比2月

6、份增加了3140万个,增幅达到5.1%。而人们在享受互联网带来的便利的同时也面临着如何在一个如此海量的信息中准确、快捷的找到自己所需信息的问题。信息资源组织的杂乱性和信息资源的动态性,使得用户要在信息海洋里获取信息,就象大海捞针一样,由此互联网搜索引擎应运而生。虽然目前已经有了像google、百度这样的优秀通用搜索引擎,但是它们所提供的服务并没有很好地满足所有人的需求。一方面,有用互联网上信息量巨大,远超出目前最大的搜索引擎可以完全收集的能力范围,因而收集互联网上的所有网页几乎是不可能的。由中国互联网络信息中心(CNNIC)

7、发布的《第29次中国互联网络发展状况统计报告》中明确指出,截至2011年12月底,中国网站数量达230万个,中国网页数量为866亿个,这样庞大的数据量,让收集互联网上的所有网页成为不可能。另一方面,搜索引擎自身的局限性,导致每一次搜索都会伴随大量冗余的网页信息,用户还是需要进行大量筛选,想要快速获取真正想要的信息依然困难。除此之外,这些通用搜索引擎的商业气息日益严重,如百度就采用过竞价排名的方式获利,而这样的行为,无疑又降低了用户获取搜索结果的公正性。为推进搜索引擎技术的发展,Apache基金会推出了一个开源的全文搜索引擎工

8、具包Lucene。自从Lucene诞生之日起,它就风靡全球。如何以Luene为基础开发搜索引擎已成为搜索引擎领域的一个热点问题。1.2搜索引擎的发展史与现状现代意义上的搜索引擎,起源于蒙特利尔大学学生AlanEmtage1990年发明的Archie。尽管当时还未出现WorldWideWeb

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。