欢迎来到天天文库
浏览记录
ID:14227778
大小:50.00 KB
页数:14页
时间:2018-07-27
《基于在线增量学习的自适应聚焦爬虫研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于在线增量学习的自适应聚焦爬虫研究本文由fatcat132006贡献pdf文档可能在WAP端浏览体验不佳。建议您优先选择TXT,或下载源文件到本机查看。第26卷第5期 2009年5月 计算机应用与软件ComputerApplicationsandSoftware基于在线增量学习的自适应聚焦爬虫研究朱 婷121,2滕桂法 陆浩张长利 曾大军1222(河北农业大学信息科学与技术学院 河北保定071001)(中科院自动化所复杂系统与智能科学实验室 北京100190)摘 要在原始分类器聚焦爬虫的基础上设计并实现在线增量学习的自
2、适应聚焦爬虫。该聚焦爬虫包括一个基础网页分类器和一个在线增量学习自适应链接分类器。基础页面分类器根据领域知识对抓取到的页面内容主题相关性进行分类。在线增量学习自适应链接分类器能即时根据爬虫爬得网页和网页链接信息作出分类模型调整以更合理方式计算链接的主题相关度。系统中链接排序模块采用TopicalRank主题相关度计算方法分析链接优先抓取顺序。把基于增量学习的自适应聚焦爬虫应用到农业领域,实验结果和分析证明在线增量学习的自适应聚焦爬虫在农业领域爬行性能比仅基于网页相关性和链接重要度的原始分类器聚焦爬虫具有更好的性能。关键词 在线增量学
3、习 TopicalRank 聚焦爬虫 农业领域随着Internet的快速发展,网络资源成为巨大的知识库,搜索引擎已经成为网络用户获取各种信息的一种重要手段。目前如Google、Baidu等大多数是面向所有信息的搜索引擎,可以称之为通用搜索引擎。随着信息多元化的增长,适用于所有用户的通用搜索引擎已经不能满足特定用户更深入的查询需求,他们对信息的需求往往是针对特定领域和面向特定主题的,此时通用搜索引擎的搜索效果难以满足有特定需求的用户。针对这种情况,一个分类精确、数据全面、更新及时的面向主题的搜索引擎———垂直搜索引擎应运而生。聚焦爬虫是
4、一个自动提取网页的程序,它为垂直搜索引擎从万维网上下载网页,是垂直搜索引擎的重要组成部分。它根据抓取目标有选择地访问网页和相关的链接,并获取所需要的Abstract Anadaptivefocusedcrawlerofonline2incrementallearningbasedonprimitiveclassificationfocusedcrawlerisdesignedandre2performancethantheprimitiveclassifierfocusedcrawlerbasedonlyonwebpages’cor
5、relationandlinkimportancedegree.Keywords Online2Incrementallearning TopicalRank Focusedcrawler Agriculturefieldalizedinthisarticle.Thecrawler’architectureincludesabasicwebpageclassifierandanonline2incrementallearningadaptivelinkclassifiers.incrementallearningadaptiveli
6、nkclassifierisabletoadjusttheclassifyingmodelinstantlyaccordingtothewebpagesfetchedbythecrawlerandthelinkinformationofthewebpages,andtocalculatecorrelationdegreeofthelinkedtopicsmorereasonablyTheLinksSortingModulein.ducestheapplicationofincrementallearning2basedadaptive
7、focusedcrawlerinagriculturefield.ExperimentalresultandanalysisdemonstrateThebasicwebpageclassifierisusedtoclassifythecorrelationoffetchedcontent’topicsofpagesaccordingtodomainknowledge.Theonline2s0 引言thesystemusesTopicalrankalgorithmoftopiccorrelationdegreetoanalyzethe
8、preferentialfetchingsequenceofthelinksThepaperintro2.that,withregardtothecrawlingperformanceinagriculturefield
此文档下载收益归作者所有