欢迎来到天天文库
浏览记录
ID:34628856
大小:5.22 MB
页数:63页
时间:2019-03-08
《基于proactive分布式并行web+spider的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于ProActiVe的分布式并行WebSpider研究摘要搜索引擎面对不断爆炸性增长的互联网信息,为了保证搜索的全面性和页面的有效性,就要求有更短的更新周期,于是对WebSpider的采集效率提出了更高的要求。单机的WebSpider的采集效率明显不能满足搜索引擎的更新需求。目前的分布式并行WebSpider大都用C、C++、Fortran编写的PVM或MPl程序,或者直接用java开发,然而PVM或MPI程序,具有可移植性差,不便于扩展,配置复杂等缺点,直接用java开发,为了实现把本地对象转化成可用的远程对象,要求编程人员对库
2、中现有代码做较大修改,这给编程人员增加了很大的负担,开发代价过高。URL去重算法对重复率高的URL集合去重效率不高。带有中心节点的整体架构不够合理,中心节点容易形成系统性能瓶颈,影响了系统的可扩展性。针对WebSpider设计开发代价过高的不足,我们提出了一种利用ProActive网格网络并行分布计算中间件开发分布式WebSpider的新技术,并且用此技术设计开发了一个分布式并行WebSpider系统。实验证明利用此项技术,使得系统采集效率提高,部署配置变得更加灵活方便,开发代价大幅降低。然后,我们针对在WebSpider采集的高重
3、复率URL集合上,目前系统中普遍采用的URL去重算法去重效率不高的不足做了改进,设计了基于Rabin算法的URL去重算法。通过理论分析和对比实验证明该去重算法在高重复率的URL集合上.T.有更高的去重效率,有效提高了WebSpider的URL去重检索速度。最后,应用该改进的URL去重算法对WebSpider的系统架构做了改进,去除了系统的中心节点,设计开发了节点对等结构的分布式并行WebSpider。实验表明该系统架构减少了节点间的通讯量,平衡了各节点的工作负载,解决了系统的中心节点瓶颈问题,提高采集效率,改善了系统的可扩展性。本文
4、的工作为设计开发高性能的WebSpider提供了新方法,新思路,也是ProActive中间件的一个新的应用,有一定的理论价值和较高的实用价值。关键词:WebSpider,ProActive,搜索引擎,分布式,并行ResearchofProActive..basedDistributedParallelWebSpiderABSTRACTConfrontwithcontinuousexplosivegrowthofInternetinformation,searchengineputsforwardahighercollectionef
5、ficiencytoWebSpiderinordertoguaranteethecomprehensiveandeffectivesearchandshorterupdatecycle.ThecollectionefficiencyofsinglemachineWebSpiderCan。tsatisfythehigherrequirementofsearchengine.CurrentlythedistributedparallelWebSpideraremostlyPVMorMPIprogramcodedwithC,C++,For
6、tran.AndsometimestheyaredevelopedwithJavadirectly.HoweverPVMorMPIprogramhavesomeweakness,suchasdifficulttotransplant,inconvenienttoexpandandcomplicatetoinstalletc..IfJavaisusedtodevelopdirectly,programmersshouldmodifytheexistingcodeindatabasegreatlyforconvertingthenati
7、veobjectintoavailableremoteobjectthatwillincreasethepersonnelburdenanddevelopmentprice.TheretrievalefficiencyofURLretrievalisnothighwhenretrievalURLsethashighrepetitionrate.Thesystemexpandabilitywillbelimitedbecausethesystemflamewhichhascenternodeisnotreasonableandthec
8、enternodeCanconfirmsystembottleneckeasily.WeputforwardanewtechniqueofthedistributedparallelWebSpiderwhichisdevelopedw
此文档下载收益归作者所有