网络爬虫工具使用

网络爬虫工具使用

ID:11199470

大小:2.53 MB

页数:35页

时间:2018-07-10

网络爬虫工具使用_第1页
网络爬虫工具使用_第2页
网络爬虫工具使用_第3页
网络爬虫工具使用_第4页
网络爬虫工具使用_第5页
资源描述:

《网络爬虫工具使用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1.新建分组备注可写可不写2.获取数据的网址2014年10月16日数据的网址为:【广告屏蔽】欲获取的数据为下图红框部分。数据源的网址在这里得到,一页有八天的链接,共69页:【广告屏蔽】点击下一页,发现列表的链接有规律:【广告屏蔽】……【广告屏蔽】推测第一页的网址为【广告屏蔽】,测试后果然打开的页面就是【广告屏蔽】于是新建任务:1.1.输入要采集的网址添加后网址如此所示备注可写可不写21变化的地方用(*)代替523411.1.输入采集内容的规则1先删除默认内容打开网页的源代码,发现获取的内容顺序为url和标题标题url此网页较为简单,形如“

2、n="2"scope="col">

3、进行,这里为了显示清楚,分两步执行2121火车头采集器自带数据库,在采集内容时会把采集内容存在自身数据库中。可以直接编辑采集到的数据。在更改任务,重新采集前,需要清空网址库与采集数据。1.1.把网址导出为了方便复制粘贴及简单编辑,保存为csv这里看模板填法和文件名格式填法2134txt模板只有单一标签时记得加个换行Csv模板内容发布(导出)时电脑可能会卡,太卡的话调大一下发布间隔21打开csv,清除错误数据另存为txt后,即可得到网址列表1.获取具体数据11.1.输入要采集的网址3把得到的网址列表粘贴到这里5421.1.获取登录Cockie1432完成后C

4、ookie在这里显示,可自由复制到其他任务上1.1.输入采集内容的规则要采集的数据如下:数值数据标签日期作为演示,只采集日期、综合指数及秦皇岛-广州的数值日期需要删除中间的HTML标签,下同321注意这次不用循环匹配注意这次不用循环匹配删除“-”两段的空格注意这次不用循环匹配经测试后发现由于有的网页不规范,没有,所以综合指数及秦皇岛-广州的采集规则改为:有些网页采不到是因为内容有误,如:【广告屏蔽】【广告屏蔽】1.1.采集及导出由于与3.3、3.4类似,所以略。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。