基于URL规则的聚焦爬虫及其应用

基于URL规则的聚焦爬虫及其应用

ID:36743651

大小:2.00 MB

页数:70页

时间:2019-05-14

基于URL规则的聚焦爬虫及其应用_第1页
基于URL规则的聚焦爬虫及其应用_第2页
基于URL规则的聚焦爬虫及其应用_第3页
基于URL规则的聚焦爬虫及其应用_第4页
基于URL规则的聚焦爬虫及其应用_第5页
资源描述:

《基于URL规则的聚焦爬虫及其应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、浙江大学硕士学位论文基于URL规则的聚焦爬虫及其应用姓名:叶勤勇申请学位级别:硕士专业:计算机应用技术指导教师:陈德人20070512浙江人学硕上学位论文摘要随着信息的不断膨胀,人们越来越离不开搜索引擎。通用搜索引擎如百度、Google给人们提供了很多便利,得到了极大的流行。但是随着人们需求的多样化,和对搜索结果质量的要求越来越高,通用搜索引擎在一些专门化的领域已经不能满足人们的要求,于是垂直搜索引擎就应运而生.尽管垂直搜索引擎很多技术与通用搜索引擎很类似,但是还是有很多自己独特的技术,和一些新的需要解决的问题,聚焦爬虫

2、就是其中的一个重点需要解决的问题。本文首先基于用同一个模板产生的动态网页其内容往往是属于同一个主题的且其URL是非常相似的这个规律,提出了一个基于URL规则的聚焦爬虫(URLRuleBasedFocusedCrawl,简称uBFc)的算法,即从每个主题网页相关站点中自动学习出代表主题相关网页URL和主题无关网页URL的j下则表达式,并用这些正则表达式来指导聚焦爬虫的抓取。接着介绍了uBFc在Nutch系统上的实现和URL正则表达式学习算法.最后我们对UBFC进行了应用和分析,特别是与广度优先搜索爬虫(BFSc)、基本聚焦

3、爬虫(BLFC)的比较分析,表明UBFC在收获率上比后两者有了明显的提高,而且招回率也明显高于BLFc。关键词垂直搜索引擎,聚焦爬虫,URL正则表达式学习,Nutch浙江人学硕士学位论文AbstcactAbstractWiththeever~expandinginformation,peoplebecomeincreasinglydependentonsearchengines.Thegeneralsearchengines,1ikeBaiduandGoogle,haveprovidedpeoplewithalotoff

4、acilities,andbecomeverypopular.However,aspeoplewanttosearchinformationinmorespecializedfieldsandwantthattheresultsreturnedbythesearchenginebemorequality,generalsearchenginescannotmeetthepeople’srequirementsinsomespecializedfields.Sotherecomeverticalsearchengines.

5、A1thoughtherearelotsofsimilaritiesbetweenverticalsearchenginesandgeneralsearchengines,verticalsearchengineshavemanyitsownspecificcharactersandnewissues.Focusedcrawlisoneofthekeyissuesthatneedtobeaddressed.Inthispaper,wefirstproposeaURLRuleBasedFocusedCrawl(UBFC)b

6、asedonthelawthatthepageswhichgeneratedbythesametemplateoftenbelongtothesametopicandtheirURLareverysimilar.ThenweimplementUBFCbasedonopensourceproject--NutchandalsodesignandimplementURLRegularexpressions1earningalgorithmwhichsupportsUBFC.Finally,weintroducetheappl

7、icationofUBFC,andhavedonealotoftestandanalysis,particularlycomparingUFBCwithboththeBreadFirstSearchCrawl(BFSC)andBaselineFocusedCrawl(BLFC).ThetestshowsthatUBFCdidaremarkableimprovementcomparingwithBFSCandBLFCinharvest,anditsrecallrateisfarbiggerthanBLFC.Keywords

8、verticalsearchengine,focusedcrawl,URLregularexpressionlearning,Nutch渐江人学硕上学位论文图目录图1-1主题孤岛⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯4图1-2页面的距离⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯5图卜

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。