欢迎来到天天文库
浏览记录
ID:56377729
大小:510.40 KB
页数:5页
时间:2020-06-22
《使用八爪鱼采集一二页重复循环提取数据怎么办.docx》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、使用八爪鱼采集一二页重复循环提取数据怎么办很多用户在制作规则的时候,可能会遇到总是在一二页循环提取数据,而不会转到第三页的情况,这其实是由于Xpath定位不好导致的,我们需要通过修改Xpath来解决这个翻页问题。在出现这个问题的时候,我们可以直接在流程里面找到问题所在,下面的规则是直接按照新手入门的步骤做的。如下图,选中循环翻页步骤,我们可以看到,循环是“下一页”。一二页重复循环-图1在流程里点击“点击翻页”,八爪鱼里的浏览器会直接跳到第二页。一二页重复循环-图2再点击流程图里的“循环翻页”步骤,可以看到,循环列表已经变成了“上一页”,系统再点击翻页的时候,就会直接跳回第一页,提取第
2、一页的数据。如此重复循环。一二页重复循环-图3打开“高级选项”,可以看到“下一页”的XPath如下图所示:一二页重复循环-图4我们把这个XPath复制到火狐里面去,发现在第一页,可以定位到“下一页”;但是在第二页,“上一页”和“下一页”都被定位了。八爪鱼自动识别的,都是当前页面的XPath,系统没有翻到第二页不知道第二页的情况。因此,我们翻页的XPath,只有在第一页里面是正常的。一二页重复循环-图5再看一下火狐浏览器里面的源码,在第二页里面这个XPath对应的不正确,把“上一页”和“下一页”,都对应到了。所以,我们需要通过修改XPath来正确定位“下一页”。一二页重复循环-图6观察
3、网页源码特点,我们直接可以用text()函数来定位“下一页”。在XPath入门2里面,给大家介绍过这个函数的意思:text()函数是一个文本函数,直接可以定位源码里面包含的文本。在火狐里面,我们将Xpath写成://A[text()='下一页']。然后将这条XPath再复制到八爪鱼里面,即可解决1、2页重复循环问题。一二页重复循环-图7相关采集教程:黄页88数据采集赶集招聘信息采集搜狗微信文章采集八爪鱼——70万用户选择的网页数据采集器。1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。2、功能强大,任何网站都可以采:对
4、于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。
此文档下载收益归作者所有