欢迎来到天天文库
浏览记录
ID:37233338
大小:2.68 MB
页数:71页
时间:2019-05-20
《网络蜘蛛垂直搜索算法的改进与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、分类号督级编号工学硕士学位论文网络蜘蛛垂直搜索算法的改进与实现硕士研究生:指导教师:学科、专业:学位论文主审人:张晓龙张万松副教授计算机应用技术王卓副教授哈尔滨I程大学2008年1月哈尔滨Ilj犟大学硕十学何论文捅要网络蜘蛛在垂直搜索引擎中占据着重要的地位,它的搜索算法是垂直搜索引擎的核心技术,基于何种策略的搜索算法才能得到更高的搜索回报率是近几年网络蜘蛛研究的热点问题。本文对网络蜘蛛垂直搜索算法进行了改进与实现。本文研究了网络蜘蛛的通用搜索算法和几种垂直搜索策略,分析了现有启发式搜索算法的优缺点,改进了垂直搜索算法,设计并实现了一个基于改进后的算法的网络蜘蛛,对手机行业网站
2、作了垂直搜索实践。对算法的改进主要体现在以下三个方面。第一,通过对大量网页源文件的分析给出了一个新的链接价值估计的方法,并给出了一个经验公式。第二,把阈值的估计和g一贪婪策略结合起来,使链接的选择序列优化,从而得到更高的搜索回报率。第三,巧用MD5算法把url映射成两个数,使判断任意两个url是否相同的比较次数小于等于2。对基于改进后的搜索算法的网络蜘蛛进行用例设计和类设计,然后阐述了网络蜘蛛的实现细节。实现部分的说明包括三个部分,分别是程序的初始化,抓取网页和程序结束。通过对手机行业网站的垂直搜索实践,证明了新的链接价值的估计方法可以提高链接价值预测的正确性,把阈值的估计和
3、s一贪婪策略结合起来选择链接可以提高搜索的回报率,把链接用MD5算法映射成两个数可以提高搜索的效率。关键词:网络蜘蛛;链接价值;占一贪婪策略;阂值估计;MD5算法哈尔滨下程大学硕十学何论文AbstractWebspiderisimportantinverticalsearchengineanditssearchalgorithmisthecoretechnologyofverticalsearchengine.Itisthehotproblemtostudywebspiderinrecentyearsthatsearchalgorithmsbasedonwhichstrate
4、gyCanjusterlllancesearchrecallratio.Verticalsearchalgorithmsareimprovedandtheimprovedalgorithmisrealizedinthispaper.Inthispaper,generalsearchalgorithmsandseveralverticalsearchstrategiesisstudied,theadvantagesanddisadvantagesofheuristicsearchalgorithmsatpresentareanalysed,verticalsearchalgor
5、ithmsareimproved,thewebspiderbasedontheimprovedalgorithmisdesignedandrealized,andaverticalsearchingtesttoindustrywebsitesofmobilephonesisdone.Therealethreeaspectstoimproveverticalsearchalgorithmsasfollows.Firstly,anewmethodofestimatingalinkvalueisproposedafterhavinganalysedlargenumbersofsou
6、rcefilesofwebpages,andaexperientialformulaisgivenbythispaper.Secondly,itcallacquiremoreexcellentsequenceoflinksselectedandenhancesearchrecallfatiotocombineestimationofthethresholdwiths—翟≯eedypolicy.Thirdly,aurlCanbemappedintotwonumbersbyMD5algoritm,itmakescomparativetimestojudgewhethertwoar
7、bitraryurlsaresamedecendtooneortwo.Thewebspiderbasedontheimprovedalgorithmisdesignedandrealizedinthispaper.Thedesignofwebspiderincludesusecasedesignandclassdesign.Therealizationofwebspiderconsistsoftheinitializationoftheprocedure,crawlingpagesandtheendof
此文档下载收益归作者所有