欢迎来到天天文库
浏览记录
ID:34806673
大小:3.84 MB
页数:58页
时间:2019-03-11
《小议基于新闻版权的并行网页消重技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、广西大学硕士学位论文基于新闻版权的并行网页消重技术研究姓名:杨邵玉申请学位级别:硕士专业:计算机软件与理论指导教师:梁正友20090604基于新闻版权的并行网页消重技术的研究摘要随着网络上信息的飞速增长,搜索引擎已经成为人们查找信息的重要途径。搜索引擎对互联网上的网页进行检索时,由于存在大量的重复网页,不但加重了用户检索和阅读的负担,而且浪费了大量的存储资源。为了达到更高的采集效率并满足用户需求,需要去掉这些重复的网页。论文在分析现有的去重算法基础上,针对现有算法的缺点,提出了一种新的网页去重算法,该算法利用转载的网页大多会标出其来源、出处这一特征进行网页的初步去
2、重,并结合特征串的方法对初步去重后的网页进行二次去重。算法减少了网页文档之间相互比较的次数,更适合海量空间网页的去重。实践表明该算法有较高的准确率和召回率。现阶段的网页去重方法无论是基于网页内容还是基于网页特征都是单机去重,并不能充分利用计算机资源,高效地进行网页去重。目前的并行计算技术大多是基于MPI/PVM的,它们存在的主要问题是程序可移植性差,不便于扩展,配置复杂等缺点。论文在对ProActive中间件进行深入研究的基础上,提出了基于ProActive网格网络并行分布计算中间件的并行网页消重算法一-Del_duplicate,该算法解决了目前并行技术存在的问
3、题,实现了并行去重。实验表明该并行去重软件可以节省更多时间,具有较高的实用价值。关键词:网页消重版权ProActive搜索引擎并行ResearchofDuplicatedNewsWebPagesDeletionInParallelBased--onCopyRightABSTRACTWiththepromptincreaseinformationontheweb,SearchEnginebecomesanimportantmeansforretrievinginformationindifferentkindsofwebpages.Alargenumberofdup
4、licatedwebpagesaregotwhenSearchEngineretrievesthewebpages.Itnotonlyburdenstheuserbutalsowasteslargenumberofstorageresources.Itisimportanttodeletetheduplicatedwebpagestoobtainhigherefficiencyandsatisfytheuser’Srequirement.Accordingtoanalysisoftheshortcomingofexistingmethods,anewwebremo
5、valalgorithmisproposed.Thealgorithmbasedonthewebpages’origintodetecttheduplicatedwebpages,whichintegrateswithfeaturestring.Thealgorithmdecreasesthetimesofcomparisonbetweentexts.Itmorefittoremoveduplicatedwebpagesinmillionsofwebpages。Theexampleshowsthatthealgorithmhashighrecallandpreci
6、sionrate.Existingalgorithmsonremovingduplicatedwebpagesallworkonasinglemachineandcarl’tmixresourceseffectively.ThepresentparallelcomputingtechnologymostlybasedonMPI/PVM,whichhasshortcomingssuchasdifficulttotransplant,inconvenienttoexpandandcomplicatetoinstall.Annewdistributedparallela
7、lgorithm··-··-·tDel_duplicatebasedOnthefomamedalgorithmwasproposed,whichintegrateswithProActivethatisagridandnetworkⅡparalleldistributedcomputingmiddleware.Thetestshowsthatthealgorithmdecreasesthetimeandhashigherpracticalvalue.KEYWORDS:Duplicationremoval;Copyright;ProActive;searchengi
8、ne;di
此文档下载收益归作者所有