基于proactive分布式并行web+spider的研究

ID：34628856

大小：5.22 MB

页数：63页

时间：2019-03-08

资源描述：

《基于proactive分布式并行web+spider的研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、基于ProActiVe的分布式并行WebSpider研究摘要搜索引擎面对不断爆炸性增长的互联网信息，为了保证搜索的全面性和页面的有效性，就要求有更短的更新周期，于是对WebSpider的采集效率提出了更高的要求。单机的WebSpider的采集效率明显不能满足搜索引擎的更新需求。目前的分布式并行WebSpider大都用C、C++、Fortran编写的PVM或MPl程序，或者直接用java开发，然而PVM或MPI程序，具有可移植性差，不便于扩展，配置复杂等缺点，直接用java开发，为了实现把本地对象转化成可用的远程对象，要求编程人员对库

2、中现有代码做较大修改，这给编程人员增加了很大的负担，开发代价过高。URL去重算法对重复率高的URL集合去重效率不高。带有中心节点的整体架构不够合理，中心节点容易形成系统性能瓶颈，影响了系统的可扩展性。针对WebSpider设计开发代价过高的不足，我们提出了一种利用ProActive网格网络并行分布计算中间件开发分布式WebSpider的新技术，并且用此技术设计开发了一个分布式并行WebSpider系统。实验证明利用此项技术，使得系统采集效率提高，部署配置变得更加灵活方便，开发代价大幅降低。然后，我们针对在WebSpider采集的高重

3、复率URL集合上，目前系统中普遍采用的URL去重算法去重效率不高的不足做了改进，设计了基于Rabin算法的URL去重算法。通过理论分析和对比实验证明该去重算法在高重复率的URL集合上．T．有更高的去重效率，有效提高了WebSpider的URL去重检索速度。最后，应用该改进的URL去重算法对WebSpider的系统架构做了改进，去除了系统的中心节点，设计开发了节点对等结构的分布式并行WebSpider。实验表明该系统架构减少了节点间的通讯量，平衡了各节点的工作负载，解决了系统的中心节点瓶颈问题，提高采集效率，改善了系统的可扩展性。本文

4、的工作为设计开发高性能的WebSpider提供了新方法，新思路，也是ProActive中间件的一个新的应用，有一定的理论价值和较高的实用价值。关键词：WebSpider，ProActive，搜索引擎，分布式，并行ResearchofProActive．．basedDistributedParallelWebSpiderABSTRACTConfrontwithcontinuousexplosivegrowthofInternetinformation，searchengineputsforwardahighercollectionef

5、ficiencytoWebSpiderinordertoguaranteethecomprehensiveandeffectivesearchandshorterupdatecycle．ThecollectionefficiencyofsinglemachineWebSpiderCan。tsatisfythehigherrequirementofsearchengine．CurrentlythedistributedparallelWebSpideraremostlyPVMorMPIprogramcodedwithC，C++，For

6、tran．AndsometimestheyaredevelopedwithJavadirectly．HoweverPVMorMPIprogramhavesomeweakness，suchasdifficulttotransplant,inconvenienttoexpandandcomplicatetoinstalletc．．IfJavaisusedtodevelopdirectly，programmersshouldmodifytheexistingcodeindatabasegreatlyforconvertingthenati

7、veobjectintoavailableremoteobjectthatwillincreasethepersonnelburdenanddevelopmentprice．TheretrievalefficiencyofURLretrievalisnothighwhenretrievalURLsethashighrepetitionrate．Thesystemexpandabilitywillbelimitedbecausethesystemflamewhichhascenternodeisnotreasonableandthec

8、enternodeCanconfirmsystembottleneckeasily．WeputforwardanewtechniqueofthedistributedparallelWebSpiderwhichisdevelopedw

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 63



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于proactive分布式并行web+spider的研究

基于proactive分布式并行web+spider的研究

相关文章

相关标签