欢迎来到天天文库
浏览记录
ID:20108036
大小:69.50 KB
页数:5页
时间:2018-10-08
《基于soa架构的恶意爬虫ddos攻击检测技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于SOA架构的恶意爬虫DDoS攻击检测技术研究摘要:面向服务的体系架构(S0A)作为一个全新的网络架构和组件模型,己经逐渐成为中国IT系统架构的主导思想。随着该体系首选的Web服务发展与普及应用,其安全问题日益突出,特别是DDoS(分布式拒绝服务攻击)因为其较易实施和难以防范的特点,日益成为当今网络安全领域面临的巨大威胁。本文主要针对近年来出现的利用搜索引擎爬虫技术来实施的DDoS攻击环境下,相应的检测防御技术研究。本文采集自网络,本站发布的论文均是优质论文,版权和著作权归原作者所有。关键词:SOADDoS爬虫技术检测技术中图分类号:
2、TP393.08文献标识码:A文章编号:1007-9416(2016)10-0202-01面向服务的体系架构(Service-OrientedArchitecture,SOA)作为一个全新的网络架构和组件模型,在提供便利的同吋也面临安全方面的挑战。S0A系统不但会受到传统的网络攻击,如重放攻击、注入攻击等,也会受到各种DDoS攻击。近日有研究表明,假冒搜索引擎爬虫己经成为第三大DDoS攻击工具。本文所介绍的基于SOA架构下的DDoS攻击检测方法主要针对当今比较流行的利用网络爬虫所发起的DDoS攻击。1S0A安全问题研宄SOA是一个组件模
3、型,它将应用程序的不同功能单元(即服务)通过这些服务之间定义良好的接口和契约联系起来。SOA目前在很大程度上还是比较依赖Web服务,特别是一些面向服务技术在SOA架构上的应用,导致SOA在提供了良好的便捷的同时也避免不了一些安全隐患。而目前来看SOA往往大多应用在企业级平台之上,它所承担的服务不再单纯的是一种技术能力,而更多的是一种业务能力和H资产。因此研究SOA架构下安全问题,特别是安全检测技术,在风险到来之前提前预测、感知和及时响应具有十分重要的意义。2网络爬虫技术2.1网络爬虫概述网络搜索引擎的主要数据来源就是互联网网页,通用搜索
4、引擎的目?司褪蔷】赡艿奶岣咄?络覆盖率,网络爬虫(又称网贞蜘蛛或者网络机器人),就是一种按照特定规则,自动抓取互联网信息的脚本或者程序。搜索引擎利用网络爬虫技术爬取Web网页、文件甚至图片、音视频等多媒体资源,通过相应的索引技术处理这些信息后提供给用户查询。2.2网络爬虫的安全性问题网络爬虫策略就是尽可能多的抓取互联网中的高价值信息,所以爬虫程序会根据特定策略尽可能多的访问互联网上的网站页面,这毫无疑问会占用目标网站的网络带宽和Web服务器的处理开销,特别是一些小型网站,仅仅处理各种搜索引擎公司的爬虫引擎就会导致自身服务器“应接不暇”。
5、所以黑客可以假冒爬虫程序对Web站点发动DDoS攻击,使M站服务器在大量爬虫程序的访问下,系统资源耗尽而不能及时响应正常用户的请求甚至彻底崩溃。不仅如此,黑客还可能利用网络爬虫抓取各种敏感资料用于不正当用途。比如遍历网站0录列表;搜索测试页面、手册文档、样本程序以查找可能存在的缺陷程序;搜索网站管理员登录页面;搜索互联网用户的个人资料等等。3恶意爬虫DDoS攻击的防范和检测一般情况下,因为特定网站的特殊原因,比如有些网站不希望爬虫白天抓取网页,有些网站不希望爬虫抓取敏感信息等,所以爬虫程序默认是需要遵守Robots协议,所以限制爬虫最简
6、单直接的方法就是设置robots,txt规则。然而并不是所有的搜索引擎爬虫都会遵守robots规则,所以仅仅设置robots是远远不够的。3.1日志分析来检测恶意爬虫攻击(1)分析服务器日志统计访问最多的IP地址段。grepProcessingproduction,log
7、awk’{print$4}?
8、awk-F’•’’{print$1"•"$2"•"$3"•0"}’
9、sort
10、uniq-csort-r-n
11、head-n200>stat_ip.log(2)把统计结果和流量统计系统记录的IP地址进行对比,排除真实用户访问IP,再排除正常的
12、网页爬虫,如Google,百度,微软爬虫等。很容易得到可疑的IP地址。分析可疑ip的请求时间、频率、refer头等,很容易检测是否网络爬虫,类似如图1所示日志信息明显是一个网络爬虫。3.2基于访问行为特征检测爬虫DDoS通过H志分析来检测恶意爬虫攻击,无法及时检测并屏蔽这些spider。所以面对分布式的爬虫DDoS攻击,网站很有可能无法访问,分析日志无法及时解决问题。针对恶意爬虫程序和正常用户访问之间的行为特征不同,爬虫DDoS程序为了达到占用系统资源的目的,其访问往往是频率很高而且呈明显规律性,明显区别于真实正常用户浏览访问时的低频率
13、和随机性,所以基于统计数据或者其他应用识别或者IPS技术,可以较容易的生成正常情况下的行为模型,通过采集正常的流量行为可以构造一个正常的网络行为模型,我们可以把处于正常模型内的流量行为认定为正常行为,一旦和
此文档下载收益归作者所有