基于DDAG-SVM的网络流量分类技术-论文.pdf

基于DDAG-SVM的网络流量分类技术-论文.pdf

ID:53761339

大小:301.43 KB

页数:7页

时间:2020-04-24

基于DDAG-SVM的网络流量分类技术-论文.pdf_第1页
基于DDAG-SVM的网络流量分类技术-论文.pdf_第2页
基于DDAG-SVM的网络流量分类技术-论文.pdf_第3页
基于DDAG-SVM的网络流量分类技术-论文.pdf_第4页
基于DDAG-SVM的网络流量分类技术-论文.pdf_第5页
资源描述:

《基于DDAG-SVM的网络流量分类技术-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第43卷第8期数学的实践与认识Vb1.43.NO.82013年4月MATHEMATICSINPRACTICEANDTHEORYApr.,2013基于DDAG—SVM的网络流量分类技术欧阳广,李倩倩z,满君丰z(1.湖南化工职业技术学院信息工程系,湖南株洲412004)(2.湖南工业大学计算机与通信学院,湖南株洲412008)摘要:互联网技术不断发展,很多新的网络通信采用动态端口、协议加密等技术,使传统的流量分类技术不再适用.以TCP三次握手后客户端到服务器的第1个包载荷大小、服务器到客户端的第1个包和第2个包载荷大小以及服务器端口信息作为流量特征,提出一种基于DDAG—SVM的网络流

2、量分类的方法,并针对传统DDAG—SVM的误差累积效应,使分类性能变差的问题,根据类间可分离度重构DDAG—SVM决策树,每次都选择最容易分开的两个流类别构成分类决策面,测试结果表明该方法取得了较高的分类准确率.关键词:包载荷;支持向量机;DDAG;类间可分离度1引言网络流量分类是指按照网络的应用类型,将网络通信的数据流进行分类.准确的网络流量分类是对网络进行QoS管理、流量计费、应用趋势分析以及安全检测的基础.传统的流量分类大多数采用基于端口和基于特征串的深层数据包检测流量分类技术【,曾取得较好的分类效果.但是随着互联网技术的不断发展,很多新的网络服务(如P2P、在线游戏等)采用动

3、态端口、协议加密等技术,使这些分类技术的有效性逐步下降.基于机器学习【】的网络流量分类技术是近年研究的热点,该技术利用从传输的网络流量数据中抽取“流”的先验特征或计算流的统计信息对流量进行检测分类.支持向量机【3】(SupportVectorMachine,SVM)是在统计学习理论基础上发展起来的一种新型机器学习方法.它适合解决小样本、非线性及高维模式识别等问题.SVM最初是针对两类分类问题提出的,而实际应用中往往是多类分类问题,因此需要利用重构算法将其推广应用于多类分类问题.DDAG(DecisionDirectedAcyclicGraph)一SVM[】是多类分类的支持向量机算法之

4、一,它具有分类速度快、没有不可分区域等优点,但在应用中存在各节点如何选取的问题.本文提出根据类间可分离度重构DDAG—SVM决策树分类算法,每次都使用最容易分开的两个类别构建分类决策面.同时采用TCP三次握手后客户端到服务器的第1个包载荷大小、服务器到客户端的第1个包和第2个包载荷大小以及服务器端口作为流量特征,对网络流量进行实时分类.收稿日期:2012.10-19资助项目:湖南省教育厅资助科研项目(10C0138);湖南省自科基金项目(11JJ4050)198数学的实践与认识43卷2DDAG.SVM2.1DDAG—SVM工作原理DDAG—SVM是在“1一V一1”SVM的基础上Pla

5、nt等提出的决策导向非循环图多类分类算法.该算法首先在每两类之间训练一个分类器,对于个类别的分类问题,共训练k(k一1)/2个两类分类器,然后再将这k(k一1)/2个分类器按照图1所示构建一种两向有向无循环图.包括k(k一1)/2个内部结点以及个叶子结点,其中每个内部结点就是一个两类分类器,叶子结点是最终的类值.图1DDAG支持向量机多类分类算法当对一个网络流量进行分类时,是从决策树顶到叶结点的计算和判断过程.从决策树顶SVM1/开始,对待分类流量x,计算决策函数值,如果非1,则下一结点为SVM2如果非k,则下一结点为SVM1/k一.即假设某中间结点为s/时,根据计算的结果,决定下~

6、结点为s+1/j或者sM/一1.重复该过程,直到到达树的叶结点,则待分类流量x就属于该叶结点所代表的类.DDAG—SVM根结点的选择是随机的,下一个结点以当前结点决策面的值为依据,如果在某个结点上发生分类错误,会把错误延续到该结点所对应的后续结点上,尤其是在根结点上发生分类错误,由于误差的累积效应,将严重影响分类器的分类性能.2.2改进DDAG—SVM分类算法针对传统DDAG—SVM存在的问题,改进的措施如下:在构建DDAG。SVM决策树时以类间可分离度为依据,选择最容易分开的两个类别作为决策树的顶,在构建下一个分类的决策面时,仍然根据类间可分离度选择最容易分开的两个类别作为下一个决

7、策面,这样始终使用最容易分开的两个类别来构造DDAG—SVM决策树,就能使可能出现的错分尽可能地远离决策树的顶部,从而最大限度地减少累积误差,提高分类精度.1)类间可分离性测度通常采用类中心间的距离或马氏距离作为类间可分离性测度,但是该方法没有考虑训练样本在属性空间的几何分布,在很多情况下类中5-的距离并不能正确代表类间的可分离性,类内样本分布也是影响类间可分离性的重要因素.基于Fisher准则的线性鉴别的思想是选择使Fisher准则函数达到极值的矢量作为

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。