网络蜘蛛垂直搜索算法的改进与实现

网络蜘蛛垂直搜索算法的改进与实现

ID:37233338

大小:2.68 MB

页数:71页

时间:2019-05-20

网络蜘蛛垂直搜索算法的改进与实现_第1页
网络蜘蛛垂直搜索算法的改进与实现_第2页
网络蜘蛛垂直搜索算法的改进与实现_第3页
网络蜘蛛垂直搜索算法的改进与实现_第4页
网络蜘蛛垂直搜索算法的改进与实现_第5页
资源描述:

《网络蜘蛛垂直搜索算法的改进与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、分类号督级编号工学硕士学位论文网络蜘蛛垂直搜索算法的改进与实现硕士研究生:指导教师:学科、专业:学位论文主审人:张晓龙张万松副教授计算机应用技术王卓副教授哈尔滨I程大学2008年1月哈尔滨Ilj犟大学硕十学何论文捅要网络蜘蛛在垂直搜索引擎中占据着重要的地位,它的搜索算法是垂直搜索引擎的核心技术,基于何种策略的搜索算法才能得到更高的搜索回报率是近几年网络蜘蛛研究的热点问题。本文对网络蜘蛛垂直搜索算法进行了改进与实现。本文研究了网络蜘蛛的通用搜索算法和几种垂直搜索策略,分析了现有启发式搜索算法的优缺点,改进了垂直搜索算法,设计并实现了一个基于改进后的算法的网络蜘蛛,对手机行业网站

2、作了垂直搜索实践。对算法的改进主要体现在以下三个方面。第一,通过对大量网页源文件的分析给出了一个新的链接价值估计的方法,并给出了一个经验公式。第二,把阈值的估计和g一贪婪策略结合起来,使链接的选择序列优化,从而得到更高的搜索回报率。第三,巧用MD5算法把url映射成两个数,使判断任意两个url是否相同的比较次数小于等于2。对基于改进后的搜索算法的网络蜘蛛进行用例设计和类设计,然后阐述了网络蜘蛛的实现细节。实现部分的说明包括三个部分,分别是程序的初始化,抓取网页和程序结束。通过对手机行业网站的垂直搜索实践,证明了新的链接价值的估计方法可以提高链接价值预测的正确性,把阈值的估计和

3、s一贪婪策略结合起来选择链接可以提高搜索的回报率,把链接用MD5算法映射成两个数可以提高搜索的效率。关键词:网络蜘蛛;链接价值;占一贪婪策略;阂值估计;MD5算法哈尔滨下程大学硕十学何论文AbstractWebspiderisimportantinverticalsearchengineanditssearchalgorithmisthecoretechnologyofverticalsearchengine.Itisthehotproblemtostudywebspiderinrecentyearsthatsearchalgorithmsbasedonwhichstrate

4、gyCanjusterlllancesearchrecallratio.Verticalsearchalgorithmsareimprovedandtheimprovedalgorithmisrealizedinthispaper.Inthispaper,generalsearchalgorithmsandseveralverticalsearchstrategiesisstudied,theadvantagesanddisadvantagesofheuristicsearchalgorithmsatpresentareanalysed,verticalsearchalgor

5、ithmsareimproved,thewebspiderbasedontheimprovedalgorithmisdesignedandrealized,andaverticalsearchingtesttoindustrywebsitesofmobilephonesisdone.Therealethreeaspectstoimproveverticalsearchalgorithmsasfollows.Firstly,anewmethodofestimatingalinkvalueisproposedafterhavinganalysedlargenumbersofsou

6、rcefilesofwebpages,andaexperientialformulaisgivenbythispaper.Secondly,itcallacquiremoreexcellentsequenceoflinksselectedandenhancesearchrecallfatiotocombineestimationofthethresholdwiths—翟≯eedypolicy.Thirdly,aurlCanbemappedintotwonumbersbyMD5algoritm,itmakescomparativetimestojudgewhethertwoar

7、bitraryurlsaresamedecendtooneortwo.Thewebspiderbasedontheimprovedalgorithmisdesignedandrealizedinthispaper.Thedesignofwebspiderincludesusecasedesignandclassdesign.Therealizationofwebspiderconsistsoftheinitializationoftheprocedure,crawlingpagesandtheendof

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。