欢迎来到天天文库
浏览记录
ID:31592613
大小:1.75 MB
页数:18页
时间:2019-01-14
《如何批量提取网页图片》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、八爪鱼·云采集网络爬虫软件www.bazhuayu.com如何批量提取网页图片很多人需要在网页上收集大量的图片,一个个下载费事费力。今天教给大家一个批量提取网页图片的方法,供大家提高工作效率。采集网站:http://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1511164186444_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&
2、fb=0&width=&height=&face=0&istype=2&ie=utf-8&hs=2&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90 使用功能点:l Ajax下拉滚动/tutorialdetail-1/ajgd_7.htmll 分页列表信息采集/tutorialdetail-1/fylb-70.html 步骤1:创建采集任务八爪鱼·云采集网络爬虫软件www.bazhuayu.com1)进入主界面,选择自定义模式 2)将上面网址的网址复制粘贴到
3、网站输入框中,点击“保存网址”八爪鱼·云采集网络爬虫软件www.bazhuayu.com 3)系统自动打开网页。我们发现,百度图片网是瀑布流的网页,经过每一次下拉加载,都会出现新的数据。当图片足够多的时候,可无数次下拉加载。因而,此网页涉及AJAX技术,需要设置AJAX超时,以便确保数据采集的时候不会遗漏。 八爪鱼·云采集网络爬虫软件www.bazhuayu.com选中“打开网页”步骤,打开“高级选项”,勾选“页面加载完成向下滚动”,设置滚动次数为“5次”(根据自身需求进行设置),时间为“2秒”,滚动方式为“
4、向下滚动一屏”;最后点击“确定” 注意:示例网站,没有翻页按钮,滚动次数、滚动方式会影响数据采集数量,可按需设置 步骤2:采集图片URL八爪鱼·云采集网络爬虫软件www.bazhuayu.com1)选中页面内第一个图片,系统会自动识别同类图片。在操作提示框中,选择“选中全部” 2)选择“采集以下图片地址”八爪鱼·云采集网络爬虫软件www.bazhuayu.com 步骤3:修改Xpath1)选中“循环”步骤,打开“高级选项”。可以看到八爪鱼系统自动采用的是“不固定元素列表”循环,Xpath为://DIV[@i
5、d='imgid']/DIV[1]/UL[1]/LI八爪鱼·云采集网络爬虫软件www.bazhuayu.com 2)将此条Xpath://DIV[@id='imgid']/DIV[1]/UL[1]/LI,复制到火狐浏览器中进行观察——仅可定位到网页中22张图片八爪鱼·云采集网络爬虫软件www.bazhuayu.com 3)我们需要一条能够定位到网页中全部所需图片的Xpath。观察网页源码并将Xpath修改为://DIV[@id='imgid']/DIV/UL[1]/LI,网页中全部所需的图片均被定位了八爪鱼
6、·云采集网络爬虫软件www.bazhuayu.com 4)将修改后的Xpath://DIV[@id='imgid']/DIV/UL[1]/LI,复制粘贴到八爪鱼中相应位置,完成后点击“确定”八爪鱼·云采集网络爬虫软件www.bazhuayu.com 5)点击“保存”,再点击“开始采集”,这里选择“启动本地采集”八爪鱼·云采集网络爬虫软件www.bazhuayu.com 说明:本地采集占用当前电脑资源进行采集,如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能,云采集在网络中进行采集,无需当前
7、电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你采集,速度降低为原来的十分之一;采集到的数据可以在云上保存三个月,可以随时进行导出操作。步骤4:数据采集及导出1)采集完成后,会跳出提示,选择导出数据八爪鱼·云采集网络爬虫软件www.bazhuayu.com 2)选择合适的导出方式,将采集好的数据导出八爪鱼·云采集网络爬虫软件www.bazhuayu.com 步骤5:将图片URL批量转换为图片经过如上操作,我们已经得到了要采集的图片的URL。接下来,再通过八爪鱼专用的
8、图片批量下载工具,将采集到的图片URL中的图片,下载并保存到本地电脑中。图片批量下载工具:https://pan.baidu.com/s/1c2n60NI1)下载八爪鱼图片批量下载工具,双击文件中的MyDownloader.app.exe文件,打开软件八爪鱼·云采集网络爬虫软件www.bazhuayu.com 2)打开File菜单,选择从EXCEL导入(目前只支持EXCEL格式文件)
此文档下载收益归作者所有