欢迎来到天天文库
浏览记录
ID:31228508
大小:115.50 KB
页数:10页
时间:2019-01-07
《网络流量分类及其现状研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、网络流量分类及其现状研究 【摘要】高效的网络流量分类是实现网络管理、流量控制以及安全检测的重要环节。详细介绍了现有的网络流量特征选择方法和分类方法的国内外研究现状,在对比各种方法优缺点的基础上,指出半监督学习方法在网络流量特征选择和分类方面的优势,同时,总结了半监督学习方法在网络流量分类领域亟待解决的问题。 【关键词】网络流量特征选择分类半监督学习 【中图分类号】G【文献标识码】A 【文章编号】0450-9889(2013)10C-0190-03 网络的持续发展与变化,导致Internet数据流量持续增长
2、,应用属性动态变化,应用类型多样化。政府、企业和个人用户每天都会产生成千上万条不同的网络应用流量,这给网络运营和管理带来巨大的机遇,也带来前所未有的挑战。视频、P2P、游戏、聊天、商务交易等各种应用不断涌现,造成新兴应用层出不穷、带宽消耗急剧增加、安全问题日益增多,如何为用户提供一个安全、可靠和高效的网络环境,是当前亟待解决的关键问题。网络流量分类是实现网络可控性的基础技术,在网络管理、服务质量保障和网络安全等领域都有应用。但随着网络的发展,网络速度不断提高,新型的网络应用和技术不断出现,对网络流量分类技术提出了更
3、高的要求。 一、网络流量的定义10 网络中存在的“流”是指在一个特定时间段内,一个节点(可以是计算机、路由器或者服务器等网络设备)收到或发送的具有相同五元组(源IP地址,目的IP地址,源端口号,目的端口号,协议类型)的单向数据包集合。只要数据包的上述五个要素中有一个不相同,它们就不属于同一条流。在流的定义的基础上,网络流量分类是指:对流按照其应用层的应用类型(如FTP,MAIL,WWW,P2P等),将网络中存在的TCP流或UDP流进行分类。对网络流量分类的研究主要是网络流量特征选择和分类方法两方面。 二、网络
4、流量特征选择方法研究现状 特征选择是从原始特征集中选取有助于分类决策特征子集以使特定的评价标准最优的过程。网络流量数据维数过高和训练样本不足的矛盾会导致一些学习算法出现“过拟合”现象,甚至面临“维数灾难”。一个高效的特征选择算法对数据的分析十分重要,它通过剔除大量网络流量特征中冗余的、有噪声的特征,降低特征维数,从而达到减少分类器的建模时间,提高分类器识别率的目的。面对不同的网络流量实际问题,一方面,高维的原始数据直接影响分类器训练时间,可通过特征选择来降维,平衡训练时间和分类精度的矛盾;另一方面,大量无关或冗余
5、的特征直接影响分类器的设计,可通过特征选择来去掉无效的特征,提高分类器泛化性。特征选择技术有助于增强分类系统的速度、准确率和可理解性,因此,信息充分、低冗余、低噪声的特征子集是设计并优化分类器性能的前提条件。 2005年,Zander10S等人提出基于统计特征的机器学习流量分类框架,采用了序列前向的特征选择方法(SFS)获取最佳的流特征集,分类精度达到87%,但用于实验的流的数量和应用类型有限。2006年,WilliamsN等人采用五种经典的机器学习算法,比较特征选择分别采用最佳搜索、贪婪搜索策略、前向和后向搜索
6、方向下对分类性能的影响。2007年,YangYue-xiang根据经验选取了12个对分类最有效的流统计特征用于SVM流量分类,而未用算法进行特征选择,导致某些类型的流量精度偏低。2008年,HyunchulKim在基于filter型特征选择模型下,采用最佳优先搜索策略来选取流统计学特征。HUANG等人将粒子群算法用于特征搜索,但粒子被过多束缚,容易导致局部最优。2009年,Li等人利用遗传算法进行特征属性选择,搜索能力强,对求解大规模复杂问题具有较好的适应性,但算法容易收敛过早。2010年,Xu等人就特征产生及特征
7、选择对分类的速度及精度的影响进行了详细分析。2011年,Pereira提出了一种新的基于属性相关性的数据流特征选择算法,通过曲线拟合趋势相关性属性进行特征选择,一定程度上克服了传统方法的局限性,但仍然存在着计算量大,消耗时间较长的不足。2012年,Wang以流的统计学特征为依据,提出了一种基于filter和wrapper的组合式特征选择,获得识别P2P的最优流特征子集,但该方法的通用性有待提高。10 目前,各种新的搜索机制和评价标准如支持向量机、马尔可夫、粗糙集、神经网络等方法被广泛应用于改进现有的特征选择算法,
8、使该领域的研究呈现多样化趋势。流量样本中是否含有监督信息是特征选择算法分类的标准,它可归类为有监督、无监督和半监督特征选择流量分类方法三大类。有监督的流量特征选择方法使用如类标记、成对约束等有监督信息进行特征约简;无监督的流量特征选择方法根据大量无标记样本特征间的相似性来进行特征选择;而半监督的流量特征选择方法是同时充分利用少量有标记和大量无标记样本信息,选
此文档下载收益归作者所有