网络数据采集技术概述.ppt

网络数据采集技术概述.ppt

ID:20770761

大小:842.12 KB

页数:12页

时间:2018-10-15

网络数据采集技术概述.ppt_第1页
网络数据采集技术概述.ppt_第2页
网络数据采集技术概述.ppt_第3页
网络数据采集技术概述.ppt_第4页
网络数据采集技术概述.ppt_第5页
资源描述:

《网络数据采集技术概述.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、网络爬虫简介爬虫与反爬技术目录爬虫技术数据采集流程网页分析动态页面抓取可视化爬虫爬虫框架案例反爬技术反爬技术及解决方案前言robots.txt:Robots协议被称为爬虫协议,或机器人协议。是国际互联网界通行的道德规范。User-agent:用于描述搜索引擎robot的名字;Disallow:禁止robot访问该网站的目录或文件;Allow:允许robot访问该网站的目录或文件;sitemap.xml/txt/html/..:Sitemaps协议使网站能够告知搜索引擎网站中可供抓取的网址。自动生成:更方便地了解一个网站的内容、布局、架构。主动提交:向百度、G

2、oogle、雅虎、和微软等提交,被搜索引擎收录。数据采集流程需求分析:业务类型/方向决定抓取策略和抓取频率。(干什么用)抓取内容:具体需要什么数据/字段。(怎么用)数据来源:数据来源于具体网站或其他。抓取方式:获取数据的方式、网页结构分析、API等。代码实现:自定义或开源爬虫框架。数据清洗:根据业务具体情况转换数据格式、类型,进行数据计算等。数据清洗分为入库前点清洗和入库后点清洗。数据存储:写文件或入库方式,远程数据入库,数据加密等。爬虫任务分发:分布式爬虫、多线程爬虫。反爬策略、日志管理、监控报警等。网页分析数据抓取方式网页移动网页移动客户端API网页解析

3、正则XpathBeautifulSoupJson格式解析网页编码动态页面抓取JS渲染页面WebkitRender类Ajax请求IframeSelenium库重定向Status_codeHtmlmeta的refreshjs可视化爬虫Import.ioPortia八爪鱼集搜客造数BBD爬虫框架Scrapy框架:案例1:58同城-简历中心url:http://cd.58.com/qzzpshengchankaifa/?key=%E7%AE%80%E5%8E%86%E4%B8%AD%E5%BF%83案例2:阿里巴巴-搜索url:http://m.1688.com/o

4、ffer_search/-cee4baeec7f8.htmlSet-Cookie_csrf反爬技术User_agent判断来源根据IP访问频率判断,封锁IP或者账号验证码识别Pillow库Tesseract库Numpy机器学习根据实际成本制定策略频繁变更网页结构非正常请求提供虚假信息(隐含输入字段或缺失参数)谢谢!2018.01.01

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。