欢迎来到天天文库
浏览记录
ID:41655093
大小:89.39 KB
页数:3页
时间:2019-08-29
《基于机器学习的流量分类》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于机雅学习的加密流量分类研究引言随着互联网技术不断发展,网络规模逐渐增人,网络应用业务类型不断涌现。网络应用迅速产住了大量流量,对网络业务的识别,监视,控制和安全管理方面带來巨大的挑战。互联网各种应用类型有着口身的统计特征,通过分析这些特征,可以对网络流量进行有效分类,帮助网络管理人员对网络流量进行控制。传统的流量分类方案一般是基于数据包载荷信息,数据包头部信息,服务端口号等,但是随着动态端口,加密,网络代理,多重封装等技术,例如,一些网络恶意攻击行为经常采用web默认80端口进行通信,因此传统分类方法受到很人挑战,因此采用机器学习方法进行网络流量分类成为研
2、究热点,根据网络流属性的统计特征,建立分类模型,可以有效规避上述问题,取得了很好的分类效果,受到学术界广泛关注。相关工作目丽,己经有大量的机器学习算法被应用于网络流量分类,其中有代表性的学习算法有:朴树贝叶斯(NB),贝叶斯神经网络(BNN),C4.5算法,支持向虽机(SVM)等,通过对网络流最的属性特征进行统计,运用机器学习算法建立分类模型,可以对未知流最进行分类或预测。近期的相关研究工作的贡献如下:2005年,剑桥人学的Moore⑴等人捉出基于概率模型的朴索贝叶斯方法,该方法利卅先验概率和样木数据信息,计算出最大的后验概率值,从而得出样本类型,该方法貝有较
3、髙的分类精度,建模开销小的特点。但是该方法要求参与分类的各项属性条件独立而只遵循高斯分布,然而在流最分类问题屮,原始的网络流属性集合很难满足上述条件,因此该方法的实际应用受到极大限制。Panchenko囚等人采用包括总传输的字节数、总传输数据包个数、每个方向数据包比例、html文件的大小、及数据包的大小等特征作为候选属性集,利用SVM(支持向量机)算法进行分类,在样木总类512以下,有载荷加密,数据包填充,网络代理等防御措施下,分类精度可以达到80%,然而该方法只针对网页应用进行类型识别。KevinP.Dyer⑶等人提出利用一条数据流的总传输吋间、每个方向的帯
4、宽总消耗、burstsbandwith等粗粒度信息作为特征集而不考虑每个数据包信息(大小及方向)Z类的细粒度特征,这样可以冇效降低数据包填充等防御措施对分类精度的影响,该方法取得了与Panchenko等人相似的精度。国内方面,国防科学技术大学的王锐等人率先将支持向量SVM(supportvectormachine)方法应用到P2P流的识别领域他们利用网络连接数相关的统计属性将网络流简单划分为P2P流和非P2P流,然而他们所用的统计属性依赖于应用的连接模式,因此,该方法与基于传输层行为的流量识别方法相似,分类结果的稳定性极易受到网络环境的影响。木文研究的目的在于
5、找到一种能够检测恶意网络行为的数据流量,提出了一种在现有的传统分类模型的基础下,采用棊于决策树算法的分类模型对流屋进一步进行判别来检测出异常流量的两层结构。3、分类结构3.1分类模型如下图所示:-I端口、载荷信息等特征初步判定应用类空机器学习分类器刈络h'ZJIJlFTPI网络应用ISMTP网络丿“用Ihttpl制络应用I…对同丿卫用类型进彳j•判定(1)利用常用协议通信端口的不同,可将流量初步分类,如http(80)、https(443)、VoIP等协议。(2)初步分类之后,只能确定应用类型,还不能确定具体的网络服务商,是否为恶意流虽等信息,所以冇必要利用机
6、器学习分类器对流量进行更详细的判别,并能检测出杲常流量信息。3.2特征选収机器学习分类阶段主耍任务是根据网络流统计特征样本建立流量分类模型,特征选择和模型建立是该步骤核心了任务。选取适当的网络特征对分类精度有宜接影响。由于网络流量的属性特征存在兀余,对分类作用不人。特征选择就是要挑选兼顾计算精度和计算开销的最优特征属性集。正如文献⑶中的分析,粗粒度信息具有很好的分类效率,本文主耍釆用流量的粗粒度属性特征:(1)流量中各个方向数据传输总字节数,及各所占比例。(2)网络流量中数据传输方向改变的次数。(3)前20个burst数据包的大小及burst总数。(4)总的传
7、输时间和总的带宽消耗。3.3决策树算法3.4分类器模型4实验验证4.1实验平台及分析工具本文所使用的数据挖掘工具是Weka-3.5.6[17].该工具是由新西兰怀卡托人学Witten教授等人开发的开源工作平台•该平台利用Java语言实现了决策树、朴素贝叶斯等多种机器学习方法。运行windows7系统的PC4.2数据采集Wireshark4.3特征提取4.4实验结果与分析
此文档下载收益归作者所有