分布式数据采集平台介绍网络爬虫.doc

分布式数据采集平台介绍网络爬虫.doc

ID:57404690

大小:540.00 KB

页数:11页

时间:2020-08-16

分布式数据采集平台介绍网络爬虫.doc_第1页
分布式数据采集平台介绍网络爬虫.doc_第2页
分布式数据采集平台介绍网络爬虫.doc_第3页
分布式数据采集平台介绍网络爬虫.doc_第4页
分布式数据采集平台介绍网络爬虫.doc_第5页
资源描述:

《分布式数据采集平台介绍网络爬虫.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、分布式数据采集平台介绍(网络爬虫)————————————————————————————————作者:————————————————————————————————日期:分布式数据采集平台(网络爬虫)设计框架作者:数荟集CTO时间:2016-6-8产品特色1、高性能2、分布式部署,规模无限扩展3、配置灵活,可以任意配置规则4、支持对爬虫单独设置:执行周期、执行开始时间、执行间隔等参数5、支持http、https等协议6、支持get方式和post方式7、支持文件下载8、支持翻页采集9、支持二次js请求采集10、支持html标签、json等任意报文11、支持登录

2、采集12、支持代理采集,具有代理池功能,定时自动探测代理有效性13、独创的规则配置体系,具有处理复杂报文的能力14、具有采集结果加工处理能力,比如:替换、截取、清除垃圾标签、清除空格等操作15、支持多数据库,多表数据结果16、支持数据库插入、删除、修改等操作的功能17、支持保存文件功能18、具有规则失效告警功能功能介绍爬虫服务器管理(1)新增、修改、查看和删除爬虫服务器(2)控制分布式爬虫服务器的启动和停止。(3)配置爬虫执行周期、执行开始时间、执行间隔等参数网址管理(队列管理)、配置网址相关参数分组管理,维护网址的分组信息,便于分类进行操作配置解析规则代理服务

3、状态设置代理服务器导入数据库管理输入库写入规则可以配置,{标题}标识从网页中采集过来的标题输出文件管理输出文件名可以进行配置{$日期}表示系统变量日期爬虫测试,采集指定url,用来查看返回报文方便定义规则失效规则告警

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。