欢迎来到天天文库
浏览记录
ID:32150042
大小:5.07 MB
页数:44页
时间:2019-01-31
《基于网络爬虫的虚假网页主动智能检测》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、万方数据华北电力大学硕士学位论文期的16.7万相比,增长了近3倍之多,可以看出虚假网页欺骗已称为网络用户所面临的首要威胁;同时报告还称,2012年共拦截的虚假网页攻击高达81亿次,比2011多3倍。2012年全年拦截的挂马网页只有4237万次,相比2011年同期同比下降了近8成,从另一方面来看,虚假网页的危害已经远远超过网页挂马,值得注意的是,从2012年6月开始,出现了大批“闪骗型”虚假网页,其特点是生存周期只有不到6个小时。这种“闪骗型”虚假网站呈现出“精准定位、迅速出击、主动自杀”等特点,针对性极强,拦击难度大【21。同时我们注意到中国反钓鱼网站联盟(APAC)的最新数据,其显示日前
2、我国新增钓鱼网站175万个,致使受害网民高达4411万人次,其相应的经济损失超过200亿元。虚假网页的出现使电商、银行等合法网页的信誉遭受到严重的危害,因此许多公司都针对虚假网站的危害采取了很多措施来防止用户上当受骗,虚假网页究其到底还是侵害了普通消费者的合法权益,非法窃取用户的信息及财务,所以普通用户是虚假网站的最大的受害者【31。虚假网页已经成为网络交易平台所面临的最大的安全威胁。面对日益严峻的形式,研究出更加准确和更加快速的虚假网页检测方法已经迫在眉睫。1.2国内外研究现状现有的钓鱼网站检测方法主要有基于URL的黑名单过滤技术、机器学习检测技术、基于页面元素的检测技术和IP地址检测技
3、术【41。1.2.1虚假网站检测研究现状钓鱼网站(fishingwebsite),又被称为虚假网站(fakewebsite),它是指攻击者通过伪造在线销售平台、在线支付平台和网络银行的网站,让注册用户填写自己的私人资料,然后通过利用这些信息来非法盗取用户的财产,给用户造成巨大的经济损失。为了打击这些非法钓鱼网站,一些比较流行的探测技术也应用而生。(1)基于URL的黑名单过滤技术【5】这个是目前简单的通用的做法,就是把一份已知的钓鱼网站的黑名单保存在浏览器中,并且实时的更新名单。用户在输入网址时,浏览器会将用户输入的网址和黑名单进行比较,如果发现用户输入的网址存在黑名单中,则提醒用户即将访问
4、的是钓鱼网站。在早期,是通过人工收集互联网上的网页,然后再人工判定一个网址是否是钓鱼网站,再将它加入到黑名单中。这种方法有很大的局限性,随着互联网的发展,网络上的网站可以说是成千上万,人工收集的数量是十分有限的。(2)基于URL的机器学习检测技术【6】万方数据华北电力大学硕士学位论文这个是目前比较流行的做法。URL检测技术直接分析钓鱼网站的URL地址,它和黑名单技术的不同在于,URL探测技术选择钓鱼网站的特征向量,生成训练数据,训练构建分类器模型,应用分类器分类URL。针对此,比较流行的两种算法是Garera算法和Ma算法。许多知名企业先后采集了10000条钓鱼网站的URL地址,分析他们的
5、特征,生成了分类器模型。通过分析发现,这种方法是目前最方便简洁的方法,google利用此可以识别90%的钓鱼网站。但这种方法的前提是必须要提取大量的钓鱼网站URL样本,由于钓鱼网站的存活时间十分短暂,这就意味着通过样本分析得出的分类器可能会跟不上网络上网址的更新速度。(3)基于网页内容的探测技术【7】大多数钓鱼网站,一般情况下伪造的是真实网站的内容,他们在内容上会有一定的相似度。于是出现了针对以页面元素作为特征进行研究的技术。这种技术会采用CANTINA算法提取页面的URL、域名、Logo、Forms、页面关键词等信息作为特征,根据不同特征表达方法构建相应的基础分类器,然后根据目标网站的基
6、础分类器和待检测网站的基础分类器这两两之间的关系,计算各个特征分类模型预测结果相应的权重,最后通过综合各个基础分类器的预测结果得出结论。这种技术可以很好的判断一个网站是否是钓鱼网站,但是这个只是针对某种的特定虚假网站的检测。(4)IP地址检测技术【8】这种技术主要用于检测客户端DNS是否被攻击。有时会出现虽然用户输入了一个真实网站的网址,但是返回的结果却是钓鱼网站的情形,这个主要是由于DNS被攻击的缘故。DNS被攻击后,即使用户输入的是真实的网站网址,但是经DNS解析后得到的却不是真实网站的IP。这样用户就会误认为是真实的网站而泄露了自己的私人资料。为此出现了IP地址检测技术,检测返回的I
7、P地址是否对应输入的URL。但是这种技术的使用范围小,仅仅适用于客户端。而且,在网络时代高速发展的今天,DNS攻击技术千奇百怪,正确判断出DNS是否受到攻击已经成为一个艰巨的问题。1.2.2网络爬虫研究现状网络爬虫其实就是一中互联网上的数据结构,它其实就像爬虫一样不停的爬取网络上的资源,然后把爬取的资源作为搜索引擎的资源采集部分。网络爬虫的研究可以说将影响到整个网络上资源搜索的功能。研究者们经过不断的探索和研究,实现了许
此文档下载收益归作者所有