资源描述:
《分布式并行计算论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于Hadoop分布式爬虫设计综述摘要:由于Internet规模不断扩大,包罗万象的信息资源被连接在一起,形成了一个广阔宏大的信息空间"在这个空间中,存在着海量的信息,如何快速高效和安全地让网络用户在如此浩瀚的信息海洋之中找到并获取自己所需的资源,是当前互联网发展的最大挑战之一。如今,云计算已成为当前的重要趋势之一。本文主要阐述在Hadoop分布式文件系统HDFS以及分布式计算框架MapReduce的基础上开发的分布式搜索引擎的爬虫设计相关技术、原理、流程图。关键词:云计算分布式爬虫Hadoop搜索引擎1引言随着搜索引擎的发展,
2、搜索引擎所采用的技术也随之变得丰富和多样化,能够适应不同搜索用户以及不同搜索目的的需要。目前,搜索引擎的性能指标主要有三个:首先考虑的是规模的大小,只有规模达到一定的数量级,用户搜索结果的符合度才能够达到满足不同用户的需求程度;其次是性能,搜索引擎的网络蜘蛛必须在一个较短的时间内完成对目标网络的信息搜索,同时,能够在用户可容忍的时间段内,完成搜索结果的反馈;最后是搜索的质量,能够去掉信息重复的网页,对一些无用信息进行过滤,能够准确返回用户想要的结果。如何从庞大的资料库中找到正确的资料,被公认为是下一代搜索技术的竞争要点"要对海量
3、的信息进行检索,单单依靠单台计算机的处理能力远远不够,即使硬件的发展速度很快,但是根本赶不上信息的增长速度。而若采用集群计算机实现,虽然可以解决处理速度问题,但由于从网络的整体上看,该集群仍是一个结点,会严重受制于网络带宽,因此,需要采用多台计算机进行分布式协同处理"。分布式搜索引擎是通过网络把大范围的分布、异构数据集联合起来,形成一个逻辑整体,为用户提供分布式的信息检索服务。同传统搜索引擎相比,分布式搜索引擎有以下优点:1)各检索服务器之间协同工作,每个服务器只搜索自身自治区域内的信息资源,彼此之间只传递搜索结果信息,加快了检
4、索速度,减轻网络及各站点的负担;2)与网络资源本身的分布式特性相适应,增加搜索服务器方便,有良好的可扩展性;3)索引信息化分到各个数据库中,使得各索引数据库规模小,易于管理,缩短查询响应时间。当今,大型网站的用户多,参与度广。因此,如何有效地为如此巨大的用户群体服务,让他们参与时能够享受方便、快捷的服务,成为这些网站不得不解决的一个问题。而与此同时,凭借Google文件系统搭建起来Google服务器群,为Google提供强大的搜索速度与处理能力。于是,如何有效利用这些这种技术,为更多的企业或个人提供强大的计算能力与多种多样的服务
5、,就是像Google这样拥有巨大服务器资源的企业在考虑的问题。正是因为一方对计算能力的需求,而另一方能够提供这样的计算能力,云计算就应运而生。wikipedia关于云计算的定义为云计算是网格计算下的一种新的标签,它使用公用计算或其它方法来共享计算资源。云计算是依靠本机服务器或个人设备来处理用户应用程序之外的另一种选择。目前,包括Google、微软、IBM、Amazon、EMC和惠普在内的许多IT业巨头都宣布要在云计算上进行重点研究,也有了一些供企业使用的云计算案例。目前,最著名的云计算基础设施是由Google提出来的。Googl
6、e使用的云计算基础设施模式[1]包括四个相互独立又紧密结合在一起的系统,其包括Google建立在集群之上的文件系统GFs(GooogleFilesystem)[2],针对Google应用程序的特点提出的MapReduce[3]编程模式,分布式的锁机制Chubby以及Google开发的模型简化的大规模分布式数据库BigTable[4]。本文就是在Hadoop云计算平台的基础上完成的,阐述了在Hadoop分布式平台的基础上搭建分布式爬虫的相关研究。2分布式爬虫技术背景2.1云计算云计算是一种全新的网络服务方式,其将传统的以桌面为核心
7、的任务处理转变为以网络为核心的任务处理,它利用网络实现自己想要完成的一切处理任务,使网络成为传递服务、计算力和信息的综合连接,真正实现按需计算、多人协作。其基本原理为:利用非本地或远程服务器(集群)的分布式计算机,为互联网用户提供服务(计算、存储、软硬件等服务),这使得用户可以将资源切换到需要的应用上,根据需求访问计算机和存储系统,从而降低成本。云计算真正实现了按需计算,从而有效地提高了对软硬件资源的利用效。通常,云计算(Cloudcomputing)是分布式处理(DistributedComputing)、并行处理(Paral
8、lelComPuting)和网格计算(Gridcomputing)的改进处理,其前身是利用并行计算解决大型问题的网格计算和将计算资源作为可计量的服务而提供的公用计算。2.2Hadoop分布式平台结构Hadoop是大名鼎鼎的Lucene旗下的子项目,它原先是Nut