欢迎来到天天文库
浏览记录
ID:28504217
大小:344.70 KB
页数:5页
时间:2018-12-10
《八爪鱼遇到最后一页循环采集的解决方法.docx》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、八爪鱼遇到最后一页循环采集的解决方法有些网站可能我们用系统做好的规则在采集的时候可能明明已经采集最后一页了,就是不停止,一直在最后一页循环采集,这种情况其实是由于Xpath定位不对导致的,我们需要通过修改Xpath来解决这个翻页问题。在出现这个问题的时候,我们可以直接在流程里面找到问题所在,下面的规则是直接按照新手入门的步骤做的。如下图,浏览器中要采集的数据已经在最后一页了,可是我们在循环列表中依旧能找到下一页的按钮,代表一直都可以点击这个按钮进行采集,循环是结束不了的。下一页死循环-图1:翻页死循环示例那么,我们点开循环列
2、表的高级设置按钮,下一页的Xpath如下图所示:下一页死循环-图2:下一页的Xpath我们把这个Xpath复制到火狐里面去,发现在第一页,可以定位到下一页按钮。依次检测,每一页都可以定位到下一页按钮(示例中仅有两页)。观察发现,第一页和第二页的源码中,下一页的class属性是不一样的。下一页死循环-图3:第一页源码中,下一页的class属性下一页死循环-图4:第二页源码中,下一页的class属性回顾需求:我们需要在前面几页(示例中为第一页)时,能正确定位到下一页;当在最后一页时(示例中第二页为最后一页),不需要定位到下一页。
3、因而,可以用class来区别。可以手动在火狐里面修改Xpath:将li里面的属性改为li[@class='next']。然后将修改后的Xpath:.//*[@id='gkaTable_page']/table/tbody/tr/td/div/ul/li[@class='next'],复制到八爪鱼里面。下一页死循环-图5:通过class属性,修改Xpath配置完成之后,单机采集可以看到规则能正常完成。下一页死循环-图6:规则正常采集相关采集教程:百度搜索结果采集豆瓣电影短评采集搜狗微信文章采集八爪鱼——70万用户选择的网页数据
4、采集器。1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。
此文档下载收益归作者所有