基于在线增量学习的自适应聚焦爬虫研究

基于在线增量学习的自适应聚焦爬虫研究

ID:14227778

大小:50.00 KB

页数:14页

时间:2018-07-27

基于在线增量学习的自适应聚焦爬虫研究_第1页
基于在线增量学习的自适应聚焦爬虫研究_第2页
基于在线增量学习的自适应聚焦爬虫研究_第3页
基于在线增量学习的自适应聚焦爬虫研究_第4页
基于在线增量学习的自适应聚焦爬虫研究_第5页
资源描述:

《基于在线增量学习的自适应聚焦爬虫研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于在线增量学习的自适应聚焦爬虫研究本文由fatcat132006贡献pdf文档可能在WAP端浏览体验不佳。建议您优先选择TXT,或下载源文件到本机查看。第26卷第5期   2009年5月  计算机应用与软件ComputerApplicationsandSoftware基于在线增量学习的自适应聚焦爬虫研究朱 婷121,2滕桂法   陆浩张长利 曾大军1222(河北农业大学信息科学与技术学院 河北保定071001)(中科院自动化所复杂系统与智能科学实验室 北京100190)摘   要在原始分类器聚焦爬虫的基础上设计并实现在线增量学习的自

2、适应聚焦爬虫。该聚焦爬虫包括一个基础网页分类器和一个在线增量学习自适应链接分类器。基础页面分类器根据领域知识对抓取到的页面内容主题相关性进行分类。在线增量学习自适应链接分类器能即时根据爬虫爬得网页和网页链接信息作出分类模型调整以更合理方式计算链接的主题相关度。系统中链接排序模块采用TopicalRank主题相关度计算方法分析链接优先抓取顺序。把基于增量学习的自适应聚焦爬虫应用到农业领域,实验结果和分析证明在线增量学习的自适应聚焦爬虫在农业领域爬行性能比仅基于网页相关性和链接重要度的原始分类器聚焦爬虫具有更好的性能。关键词  在线增量学

3、习 TopicalRank 聚焦爬虫 农业领域随着Internet的快速发展,网络资源成为巨大的知识库,搜索引擎已经成为网络用户获取各种信息的一种重要手段。目前如Google、Baidu等大多数是面向所有信息的搜索引擎,可以称之为通用搜索引擎。随着信息多元化的增长,适用于所有用户的通用搜索引擎已经不能满足特定用户更深入的查询需求,他们对信息的需求往往是针对特定领域和面向特定主题的,此时通用搜索引擎的搜索效果难以满足有特定需求的用户。针对这种情况,一个分类精确、数据全面、更新及时的面向主题的搜索引擎———垂直搜索引擎应运而生。聚焦爬虫是

4、一个自动提取网页的程序,它为垂直搜索引擎从万维网上下载网页,是垂直搜索引擎的重要组成部分。它根据抓取目标有选择地访问网页和相关的链接,并获取所需要的Abstract  Anadaptivefocusedcrawlerofonline2incrementallearningbasedonprimitiveclassificationfocusedcrawlerisdesignedandre2performancethantheprimitiveclassifierfocusedcrawlerbasedonlyonwebpages’cor

5、relationandlinkimportancedegree.Keywords  Online2Incrementallearning TopicalRank Focusedcrawler Agriculturefieldalizedinthisarticle.Thecrawler’architectureincludesabasicwebpageclassifierandanonline2incrementallearningadaptivelinkclassifiers.incrementallearningadaptiveli

6、nkclassifierisabletoadjusttheclassifyingmodelinstantlyaccordingtothewebpagesfetchedbythecrawlerandthelinkinformationofthewebpages,andtocalculatecorrelationdegreeofthelinkedtopicsmorereasonablyTheLinksSortingModulein.ducestheapplicationofincrementallearning2basedadaptive

7、focusedcrawlerinagriculturefield.ExperimentalresultandanalysisdemonstrateThebasicwebpageclassifierisusedtoclassifythecorrelationoffetchedcontent’topicsofpagesaccordingtodomainknowledge.Theonline2s0  引言thesystemusesTopicalrankalgorithmoftopiccorrelationdegreetoanalyzethe

8、preferentialfetchingsequenceofthelinksThepaperintro2.that,withregardtothecrawlingperformanceinagriculturefield

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。