基于Python的动态网页评价爬虫算法_夏火松.pdf

基于Python的动态网页评价爬虫算法_夏火松.pdf

ID:52948278

大小:1.29 MB

页数:4页

时间:2020-04-02

基于Python的动态网页评价爬虫算法_夏火松.pdf_第1页
基于Python的动态网页评价爬虫算法_夏火松.pdf_第2页
基于Python的动态网页评价爬虫算法_夏火松.pdf_第3页
基于Python的动态网页评价爬虫算法_夏火松.pdf_第4页
资源描述:

《基于Python的动态网页评价爬虫算法_夏火松.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第19卷第2期Vol.19No.2软件工程SOFTWAREENGINEERING2016年2月Feb.2016文章编号:2096-1472(2016)-02-43-04基于Python的动态网页评价爬虫算法夏火松,李保国(武汉纺织大学管理学院,湖北武汉430073)摘要:在大数据获取中面临着如何采集动态评论网页的问题,这篇论文使用静态网页信息构造动态链接,提出了基于Python的动态网页评论爬虫算法。在此基础上实现了评论收集程序。最后将它与通用爬虫算法进行比较,证实了该算法具有针对性强、数据采集速度快、易嵌入开发、简单等优点,为不善于编

2、程的新闻、文学、管理等学科的研究者提供了快速获取评论信息的方法。关键词:Python语言;静态地址;动态链接;动态网页评论;爬虫算法中图分类号:TP312文献标识码:ACrawlerAlgorithmsofDynamicWebReviewsBasedonPythonXIAHuosong,LIBaoguo(SchoolofManagement,WuhanTextileUniversity,Wuhan430073,China)Abstract:Anissuesinbigdatais:howtogetadynamiccommentpage?T

3、hispaperusesinformationofstaticpagesstructuredynamiclinkanddesignsacrawleralgorithmfordynamicweb.Onthisbasis,thispaperimplementsacommentcollector.Finally,thispapercomparesitwiththegeneralcrawleralgorithm.Itisprovedthatthisalgorithmhastheadvantagesofstrongpertinence,fastd

4、ataacquisition,easytobeembedded,simpleandsoon.Itprovidesfastaccesstolargedatasourcesforresearcherswhoarenotproficientinprogramming.Keywords:pythonlanguage;staticaddress;dynamiclink;dynamicwebreviews;reptilealgorithm1引言(Introduction)基于Agent的网络爬虫、迁移的网络爬虫、通用网络爬虫和聚大数据具有数据体量巨

5、大(Volume)、数据类型繁多焦爬虫等。其中聚焦爬虫是一种主题网络爬虫,它围绕主题(Variety)、价值密度低(Value)、处理速度快(Velocity)的特内容采集数据。点。在大数据获取中面临的一个数据源问题为:如何获取大静态网页是指不应用程序而直接或间接制作成Html的网量的动态评论数据?Python是一门独立的语言,可以直接操页,每一个页面都有一个固定的URL地址,这个URL和相应[1]作数据库,便于对大规模数据的操作与分析。而且,由于的Html可以通过Python直接获取。动态网页一般使用脚本语Python包含结巴分词等程

6、序包,可以直接进行分词,适宜于自言(Php、Asp等)将网站内容存于数据库中,相应URL动态链[2]然语言处理。接不可以通过Python获取。但是动态URL的变化部分一般可[3]现在很多网页通过Ajax动态请求、异步刷新生成数据。以在相关静态URL及源代码中寻找,所以这篇论文在前人的Python由于先天局限,它爬取静态网页的方法难于直接提取基础上,利用静态的URL地址和相应的网页源代码构造动态动态网页。而爬取动态网页的方法虽然有很多,但便于新闻链接,从而实现了Python直接对动态网页的爬取。本研究在学、语言学、管理等学科的研究者应用的

7、方法却很少。所以前人基础上,通过对各主流商品、新闻、社交网站、TV等动这篇论文研究如何用Python语言爬取Ajax动态生成的评论态网页评论分析,提出了基于Python的动态网页爬虫算法流数据。程图,如图1所示。这篇论文延续前人的方法,通过静态网址信息构造动态链接,并增加了翻页的部分,把各种商品、新闻、社交网站、TV等动态网页评论的爬取方法归结为一套抽象的爬虫算[4]图1动态网页评论爬虫算法流程图法流程图。在此基础上实现了商品评论收集程序。本文为实[5]Fig.1Algorithmflowchartofdynamicpages时评价数据

8、采集技术的研究提供了新路径。2基于Python的爬虫算法(Reptilesalgorithms3相关操作与爬虫程序(OperationandReptilesbasedonPython)procedure)[

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。