基于改进的慢开始算法的网络机器人爬取策略的研究

基于改进的慢开始算法的网络机器人爬取策略的研究

ID:45579837

大小:181.16 KB

页数:8页

时间:2019-11-15

基于改进的慢开始算法的网络机器人爬取策略的研究_第1页
基于改进的慢开始算法的网络机器人爬取策略的研究_第2页
基于改进的慢开始算法的网络机器人爬取策略的研究_第3页
基于改进的慢开始算法的网络机器人爬取策略的研究_第4页
基于改进的慢开始算法的网络机器人爬取策略的研究_第5页
资源描述:

《基于改进的慢开始算法的网络机器人爬取策略的研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于改进的慢开始算法的网络机器人爬取策略的研究摘要:本文以网络信息数据挖掘技术为背景,通过对现有的网络机器人(网络爬山)的几种不同的工作策略进行分析,提出了i种基于改进的慢开始算法的网络机器人工作策略,冃的在于是找到i种自适应更新频率的网页爬取方案,使网络机器人能够智能通过对源网页更新频率、用户对该网贝的访问址以及新旧网页之间的相似度、服务器系统资源等因素综合判断,来自适应的调节网络机器人对源网页的爬取频率,使在保证一定用户满意度的前提下,最大化的利用系统资源。关键词:计算机应用技术;网络机器人;慢开始;爬取频率中图分类号

2、:TP315TheResearchofNetworkRobotCrawlingStrategyBasedonImprovedSlowStartAlgrorithmTANGXuefeng,SONGJunde,SONGMeina(PCN&CADCenter,ComputerSchool.BeijingUniversityofPostsandTelecommunications,Beijing100876)Abstract:CombinedWebinformationdataminingtechnology,andanalyzi

3、ngseveralexistingnetworkrobot(webcrawler)workingstrategy,thispaperpresentsanewrobotcrawlingstrategyfornetworkrobotsbasedonimprovedslowstartalgrorithm.ItaimstodisscusandthenfindsomekindofWebpagescollectingstrategyinawayofauto-adaptivetrackingpagerenewfrequency.Thro

4、ughthisnewstrategyinthispaper,networkrobotintelligentlychecksandcalculatesthefollowingparameterstotargetwebpages:renewfrequency,uservisitsinlocalwebpagesdatabase,thesimilaritybetweenoldandrenewwebpages,utilizationrateofserverresourcesandsoon.Thekeypointinthispaper

5、istofindtherelationshipbetweenrenewfrequencyandothers.Throughthenewstrategy,itishopedtobalancethecostofserverresourcesandusersatisfaction.Keywords:ComputerApplicationsTechnology;NetworkRobots;SlowStart;CollectionFrequency0引言随着英特网技术的快速发展,网络己经渗透到人们牛活的方方面面,网络信息呈现爆炸式增

6、氏,仅屮国的网页总数就已经达到866亿个,同时,屮国静态和动态网页比例从2010年12月底的1.14:1上升到2.18:1m,为了处理抓取、分析、处理如此众多的网页,人们开始设计各种高性能的网络机器人,以及网页数据库和网页知识库,并结合数据挖掘相关技术,对这些页面进行聚类、分类等人工智能手段处理,以提供更加准确的信息给用八,使用八不至被淹没在信息海洋之屮。本文以网页信息抓取为背景,讨论在源网页不同的更新频率下对其进行抓取的策略,另外,讨论了如何保持木地网页库的即时性与与同步性,最后,在这样的前提下,进一步讨论了如何从系统角

7、度来降低运行成木。使用户对网页库信息资源的满意度与网页信息库系统的运行成本达到一个合理的平衡。冃前的网络信息挖掘技术越来越成熟,针对不同的应用场景、不同的用户需求也出现了各种各样的网络机器人定制方案,木论文根据计算机网络技术中的慢开始算法来讨论一种可以快速适应不同网页更新速率的改进型网络机器人爬取算法。1网络信息挖掘技术普遍认为,数据挖掘就是从人量的、不完全的、有噪音的、模糊的、随机的数据中,提取隐含在其屮的、人们事先不知道的,但乂是潜在有用的信息和知识的过程。12]在网络信息中的数据,其实就是网页中的数据,对网页中的内容

8、进行聚类、分类,使之按照一定的特征形成知识库,用户对网络信息的搜索其实是对知识库屮信息的查询。图1特征提取模型如图1所示,通过対不同数据源数据的集成,然后进行特征提取和融合等操作,识别出最终的知识信息,存储到相应的知识库中。2页面数据库更新策略通过网络机器人从互联网上采集到的网页,可能源网页在后来的某个

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。