资源描述:
《基于数据流挖掘的流量识别技术研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于数据流挖掘的流量识别技术研究绪论课题背景 随着互联网技术的飞速发展,各类新颖的网络应用与需求也层出不穷,网络业务由传统的、Email应用逐渐向包括语音和视频等多媒体在内的综合业务以及增值服务发展。尤其近几年来,电子购物成为一时尚,网络游戏越来越受到年轻人的喜爱,网上观看各类视频已经成为人们生活的一部分,视频会议、电子银行和网上炒股等实时业务也己经在Intemet得到广泛的应用。其中,在2013年,中国网购用户规模已达到3.02亿,使用率已经达到48.9%,相比2012年增长6.0个百分点。随着互联网技
2、术的不断飞速发展,网络规模正逐渐向着全球化的方向发展,国际总出口的带宽不断在增加,宽带入网的用户数量指数增长。2014年1月,中国互联网络信息中心(NIC)发布了第33次《中国互联网络发展状况统计报告》,数据显示,截至2013年12月,中国网民规模达6.18亿,全年新增网民5358万人[1]。互联网普及率为45.8%,较2012年底提升3.7个百分点[1]。截至2013年12月,中国国际出口带宽为3,406,824Mbps,年增长率为79.3%[1]。然而与此相对应的却是网络用户对网络连接速度和服务质量抱怨的
3、增加,网上传播病毒的种类与数量也越来越多,由此造成的危害也在不断升级,非关键业务的泛滥导致了运营网络的带宽资源被大量地消耗,影响了其他一些网络关键业务的正常开展。所以对网络流量进行准确识别与分类对保证各单位机构的局域网有足够的带宽就变得极为关键。 要监测网络能否高效、安全及稳定的运行,必须对网络流量的类别、特征进行详细研究和分析,这些对及时的了解网络的行为特征、网络的实时运行状态、定位网络故障、发现异常流量是十分关键的。同时对于设计高效网络系统,重新配置网络设施,为不同的网络客户提供QoS(服务质量)起到
4、指导性作用。此外,网络流量识别对于各种网络计费、网络安全、流量工程等领域也是非常关键的。 早期的网络模式简单,采用基于网络端口[2]、基于DPI的流量识别方法[3]就可以对流量进行非常准确的识别,但是互联网技术的的发展,如今的网络模式变得越来越复杂,传统的流量识别算法已不适合。如今对网络流量识别的研究已经成为一个热点。 目前流量识别大多是基于网络流的统计特征[4-6],并结合机器学习算法[7-9],如决策树[7]、支持向量机[8]、神经网络[9]等。最初,机器学习是作为数据挖掘和知识发现的工具,包括文
5、本识别、市场营销分析、医疗诊断等。将机器学习用于网络流控设备最早是在1990提出,1994年首次将机器学习用在入侵检测系统中来区分网络流量。现在,流量识别方法大都是将机器学习和网络流特征相结合,通过训练数据构造一个分类模型。但在实际网络流量中,网络流量具有快速的、连续的、无限的、动态变化等特点,训练样本相对于未知网络流量是有限的,未知流量的分布情况无法获得,从而导致分类结果的稳定性无法保证。 数据流的特点是数据规模大、动态变化快、多变性、连续性,这些特点正好与高速的网络流量的特点相吻合。在以往的研究中,研
6、究者是利用数据流挖掘技术来处理数据流,因此,本文将数据流挖掘技术与高速网络流量识别联系在一起,提出基于数据流挖掘的流量识别。数据流挖掘能够处理不断变化的、连续到达的流数据,并且识别模型能随流量的分布而动态的更新,保证了分类结果的稳定性。相关研究目前,流量识别方法主要集中在以下四个方面。基于网络端口的识别方法早期最常用的方法就是基于端口的识别方法,这种方法主要通过应用层协议公认的端口号来识别,简单高效快速,但是目前将这种方法用与流量识别识别效果并不好。在文献[10]中指出,以字节准确性作为评价准则时,发现端口与
7、应用类别的相关性较为密切,这种方法对于传统应用非常有效,此外,端口可以作为其他识别方法的重要属性,对于提高准确性起较为关键的作用。基于深度包检测的识别方法深度报文检测(DPI:DeepPacketInspection)是指对网络数据帧中的应用层数据内容进行识别检测,找出与之匹配的网络流量识别规则[10]。使用基于DPI技术的方法,首先提取待检测流量识别规则,然后建立一个识别规则库;在网络流量数据被捕获到时,就利用模式匹配算法[14],查找网络数据包数据内容是否与识别规则库中的规则相匹配,如果匹配,就将以该数据
8、包五元组定义的数据流识别为规则所对应的网络应用协议所产生的网络流量。每种网络应用的识别规则在规则库中都可能有一条或者多条。因此,基于深度报文检测的识别的关键就在建立和维护网络流量识别规则库,必须保证识别规则是互斥的精确的。这种方法在当前巨大的网络应用的规模下,需要耗费大量的时间、人力以及物力来持续的维护规则库。基于行为特征的识别方法基于行为特征方法则是通过分析网络应用的宏观行为的一些特征,利用这些行