如何预防网络爬虫?看这篇文章就够了.doc

如何预防网络爬虫?看这篇文章就够了.doc

ID:27903256

大小:161.00 KB

页数:12页

时间:2018-12-06

如何预防网络爬虫?看这篇文章就够了.doc_第1页
如何预防网络爬虫?看这篇文章就够了.doc_第2页
如何预防网络爬虫?看这篇文章就够了.doc_第3页
如何预防网络爬虫?看这篇文章就够了.doc_第4页
如何预防网络爬虫?看这篇文章就够了.doc_第5页
资源描述:

《如何预防网络爬虫?看这篇文章就够了.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、如何预防网络爬虫?看这篇文章就够了    一、为什么要反爬虫1.如何预防网络爬虫?看这篇文章就够了    一、为什么要反爬虫1.如何预防网络爬虫?看这篇文章就够了    一、为什么要反爬虫1.如何预防网络爬虫?看这篇文章就够了    一、为什么要反爬虫1.如何预防网络爬虫?看这篇文章就够了    一、为什么要反爬虫1.如何预防网络爬虫?看这篇文章就够了    一、为什么要反爬虫1.爬虫占总PV比例较高,这样浪费钱(尤其是三月份爬虫)  三月份爬虫是个什么概念呢?每年的三月份我们会迎接一次爬虫高峰期。  最初我们百思不得其解。直到有一次,

2、四月份的时候,我们删除了一个url,然后有个爬虫不断的爬取url,导致大量报错,测试开始找我们麻烦。我们只好特意为这个爬虫发布了一次站点,把删除的url又恢复回去了。  但是当时我们的一个组员表示很不服,说,我们不能干掉爬虫,也就罢了,还要专门为它发布,这实在是太没面子了。于是出了个主意,说:url可以上,但是,绝对不给真实数据。  于是我们就把一个静态文件发布上去了。报错停止了,爬虫没有停止,也就是说对方并不知道东西都是假的。这个事情给了我们一个很大的启示,也直接成了我们反爬虫技术的核心:变更。  后来有个学生来申请实习。我们看了简历

3、发现她爬过携程。后来面试的时候确认了下,果然她就是四月份害我们发布的那个家伙。不过因为是个妹子,技术也不错,后来就被我们招安了。现在已经快正式入职了。  后来我们一起讨论的时候,她提到了,有大量的硕士在写论文的时候会选择爬取OTA数据,并进行舆情分析。因为五月份交论文,所以嘛,大家都是读过书的,你们懂的,前期各种DotA,LOL,到了三月份了,来不及了,赶紧抓数据,四月份分析一下,五月份交论文。  就是这么个节奏。  2.公司可免费查询的资源被批量抓走,丧失竞争力,这样少赚钱。  OTA的价格可以在非登录状态下直接被查询,这个是底线。如

4、果强制登陆,那么可以通过封杀账号的方式让对方付出代价,这也是很多网站的做法。但是我们不能强制对方登录。那么如果没有反爬虫,对方就可以批量复制我们的信息,我们的竞争力就会大大减少。  竞争对手可以抓到我们的价格,时间长了用户就会知道,只需要去竞争对手那里就可以了,没必要来携程。这对我们是不利的。  3.爬虫是否涉嫌违法?如果是的话,是否可以起诉要求赔偿?这样可以赚钱。  这个问题我特意咨询了法务,最后发现这在国内还是个擦边球,就是有可能可以起诉成功,也可能完全无效。所以还是需要用技术手段来做最后的保障。  二、反什么样的爬虫1.十分低级的

5、应届毕业生  开头我们提到的三月份爬虫,就是一个十分明显的例子。应届毕业生的爬虫通常简单粗暴,根本不管服务器压力,加上人数不可预测,很容易把站点弄挂。  顺便说下,通过爬携程来获取offer这条路已经行不通了。因为我们都知道,第一个说漂亮女人像花的人,是天才。而第二个。。。你们懂的吧?  2.十分低级的创业小公司  现在的创业公司越来越多,也不知道是被谁忽悠的然后大家创业了发现不知道干什么好,觉得大数据比较热,就开始做大数据。  分析程序全写差不多了,发现自己手头没有数据。  怎么办?写爬虫爬埃于是就有了不计其数的小爬虫,出于公司生死存

6、亡的考虑,不断爬取数据。  3.不小心写错了没人去停止的失控小爬虫  携程上的点评有的时候可能高达60%的访问量是爬虫。我们已经选择直接封锁了,它们依然孜孜不倦地爬龋  什么意思呢?就是说,他们根本爬不到任何数据,除了httpcode是200以外,一切都是不对的,可是爬虫依然不停止这个很可能就是一些托管在某些服务器上的小爬虫,已经无人认领了,依然在辛勤地工作着。  4.成型的商业对手  这个是最大的对手,他们有技术,有钱,要什么有什么,如果和你死磕,你就只能硬着头皮和他死磕。  5.抽风的搜索引擎  大家不要以为搜索引擎都是好人,他们也

7、有抽风的时候,而且一抽风就会导致服务器性能下降,请求量跟网络攻击没什么区别。  三。什么是爬虫和反爬虫  因为反爬虫暂时是个较新的领域,因此有些定义要自己下。我们内部定义是这样的:  爬虫:使用任何技术手段,批量获取网站信息的一种方式。关键在于批量。  反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。关键也在于批量。  误伤:在反爬虫的过程中,错误的将普通用户识别为爬虫。误伤率高的反爬虫策略,效果再好也不能用。  拦截:成功地阻止爬虫访问。这里会有拦截率的概念。通常来说,拦截率越高的反爬虫策略,误伤的可能性就越高。因此

8、需要做个权衡。  资源:机器成本与人力成本的总和。  这里要切记,人力成本也是资源,而且比机器更重要。因为,根据摩尔定律,机器越来越便宜。而根据IT行业的发展趋势,程序员工资越来越贵。因此,让对方加班才是王

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。