《基于分类算法与聚类算法流量识别系统的研究论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
密级:保密期限:砖贡却童大警硕士研究生学位论文题目:基王佥耋复选皇塞耋复洼速量迟型系统的研究学姓专导学号:QZ鱼ZQ2名:崔旦嫂业:通信皇值:垦丕统师:一.鄞查匿4院:值皇量逗篮王程堂陵2010年1月10日 独创性(或创新性)声明IIIIIIqllll]LIIllIIIIllllIIIIllllqlllqILlqllLllIY1759657本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果.尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其它人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其它教育机构的学位或证书而使用过的材料.与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意.申请学位论文与资料若有不实之处,本人承担一切相关责任.本人签名:.垒A互盎j日期:至丑壁:l:12关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学.学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文.(保密的学位论文在解密后遵守此规定)本学位论文不属于保密范围,适用本授权书.本人签名:壁出壶日期:圣!f!:f:f!、导师签名:—耸盏乳一日期:—望坐L2£卜 北京邮电大学硕上论文基于分类算法与聚类算法流量识别系统的研究摘要Internet已经成为人们生活和经济活动中一个不可或缺的重要组成部分,为了监测网络是否安全、高效、稳定地运行和维护,必须对网络流量的特征,网络流量的类别进行细致的分析和研究,这些对及时了解网络实时运行状态、网络行为特征、定位网络故障十分重要,同时对设计高效的网络系统,重新进行网络性能设施的配置和为不同的网络客户提供QOS控制起到了指导性作用。而所有的这些都必须建立在对网络流量识别的基础之上。许多传统技术已经不适应形势的发展,传统的网络流量识别技术尤其是应用层的流量识别技术面临巨大的挑战,当前网络流量和模式比过去要复杂得多。这些新兴的业务流具有以下特点:大量基于网络的应用被开发和广泛使用,这些应用的数量在将来还会持续的增长。许多新兴业务流都使用私有的应用层协议,这些私有的协议非常复杂,很难在格式和操作上进行理解和交流。这些新兴的应用所使用的端口号是不规则的,许多业务流使用一个大于1024的临时端口号作为缺省端口。许多业务流的缺省端口号并不在IANA端口列表中注册,许多为某个特定区域的用户所开发的应用也不将它们的端口号在IANA端口列表中注册。许多P2P和流媒体应用程序使用动态端口号在节点间进行通信。综上所述,由于网络流量和模式的复杂性,提出新的并且高效的网络流量识别技术已成为近年来国际上的研究热点,有关课题具有重大而又深远的意义。本文系统研究了机器学习原理、数据挖掘技术以及特征选择算法,深入研究了多种网络流量识别算法,创新地提出分别基于分类和基于聚类的网络流量识别系统,并对两系统进行了分析比较。作者主要完成了以下工作:1、系统的研究了网络流量识别技术的国内外现状及发展情况。2、系统的介绍了网络流量识别的各种技术并进行了分析比较;系统的介绍了机器学习原理、数据挖掘技术以及特征选择算法。3、考虑到基于端口的识别方法准确性比较低,而基于有效负载的方法的开销太大,促使利用应用连接到网络时的特征流的特点来识 北京邮电大学硕士论文别流量。本文提出两种流量识别系统:一种是综合基于端口号和层流量特征识别技术优点的分类算法流量识别系统;另一种是基类算法的流量识别系统。4、通过进行流量采集和测试,从正确肯定率、建模时间、时间、算法的模型描述简洁度、CPU使用率和内存消耗等指标对统的性能进行综合评估。5、通过对两系统的综合评估,从正确肯定率、实时性、端易变性、以及CPU使用率和内存消耗等方面对两系统进行了比较析了基于分类算法与基于聚类算法流量识别系统各自的优缺点用场景。关键字流量识别机器学习数据挖掘分类算法聚类算法n ABSTRACTMInternethasbecomeanintegralandimportantpartofpeople’Slivesandeconomicactivities,inordertomonitorthenetworkoperationandmaintenancewhethersafe,ef!ficient,stable,musttodoacarefulanalysisandresearchonthefeaturesofnetworktrafficandthecategoriesofnetworktraffic.nisisveryimportforunderstandingthenetworkreal-timeoperationstatus,networkbehavior,positioningnetworkfailuresintime,whilefortheefficientdesignednetworksystem,alsohasplayedaguidingroleinre—configuringnetworkperformancefacilitiesandprovidingfordifferentnetworkcustomers.AllofthesehavetobeestablishedonthebaseofnetworktraffiCidentification.Manytraditionaltechnologiesarenotsuitedtodevelopmentofthesituation,thetraditionalnetworktrafficidentificationtechnology,especiallytheapplicationlayertrafficidentificationtechnologyhasfacedenormouschallenges,forthecurrentnetworktrafficandpatternsismuchmorecomplexthanthepast.Thesenewbusinessestraffichavefollowingcharacteristics:alargenumberofW.eb.basedapplicationshavebeendevelopedandbeenwidelyused,thenumberoftheseapplicationswillcontinuegrowinginthefuture.Manyofthesenewbusinessestrafficuseprivateapplicationlayerprotocol,theseprivateprotocolsareverycomplexanddifficulttounderstandandcommunicateontheformandoperation.Thesenewapplicationsuseirregularportnumbers,andmanyofthenewbusinessestrafficuseatemporaryportnumberwhichisgreaterthan1024asthedefaultport.Manybusinessestraffic’Sdefaultportnumberdoesn’tregisterinthe㈣portlist,andmanydevelopedHI 北京邮电大学硕士论文businessesforparticularregionuserswon’tregistertheirportnumberintheIANAportlist.ManyP2PandstreamingmediaapplicationsUSedynamicportnumberstocommunicatebetweennodes.Inconclusion,duetothecomplexityofnetworktrafficandpatterns,proposinganewandefficientnetworktrafficidentificationtechnologyhasbecomeaninternationalresearchhotspotinrecentyears,therelatedsubjectshavegreatandprofoundsignificance.Thisdissertationresearchedintotheprinciplesofmachineleaming,dataminingtechnology,andfeatureselectionalgorithms,studiedavarietyofnetworktrafficidentificationalgorithms,inventedtwonetworktrafficidentificationsystemswhichbaseclassificationandclusterseparately,andmakeanalysisandcomparisonbetweenthetwosystems.Themainworksofthedissertationaresummarizedasfollows:1.Studiedsystematicallytheinternalandexternalnetworktrafficidentificationtechnologystatus.2.Describedsystematicallyavarietyofnetworktrafficidentificationtechnologyandalsodidanalysisandcomparison;describedsystematicallytheprinciplesofmachinelearning,dataminingtechnology,andfeatureselectionalgorithms.3.Takingintoaccounttheaccuracyoftherelativelylowport-basedidentificationmethod,whilethecostofthemethodbasedonpayloadistoolargetopromotetheuseofthefeaturetrafficcharactersofapplicationsconnectedtothenetworktoidentifytraffic.Inthispapef,twokindsoftrafficidentificationsystemsareputforward:oneisbasedonclassificationalgorithmwhichintegratesadvantagesofportnumberandtransportlayertrafficfeaturerecognitionidentificationtechnology;theotherisbasedontheclusteringalgorithm.4.Throughtrafficcollectionandtraffictesting,positivefromtherightrate,evaluatedtheperformancesofthetwosystemsbasedontruepositiverate,buildingmodeltime,testingtime,conciseofalgorithmmodelsdescription,CPUutilizationandmemoryconsumption.5.Throughacomprehensiveassessmentbetweenthetwosystems,comparedthetwosystemsbasedonthecorrectidentificationrateofalgorithm,real—time,variabilityofport,aswellasCPUutilityandIV 北京邮电大学硕士论文memoryconsumption.Analyzedthetwosystems,andpointedtotheirrespectiveadvantages,disadvantagesandapplicationscenarios.KEYWORDS:TrafficidentificationMachinelearningDataminingClassificationalgorithmClusteralgorithmV 北京邮电大学硕士论文 北京邮电大学硕士论文目录目录第1章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.11.1弓I言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..11.2国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯21.3研究意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。31.4工作成果及论文结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯4第2章流量识别技术与数据挖掘⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯62.1弓l言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯62.2网络业务流量识别技术的分析与比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。62.2.1基于端口号的流量识别技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯72.2.2基于特征字段的流量识别技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯72.2.3基于传输层的流量识别技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。102.3数据挖掘技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。142.4机器学习技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.152.4.1基本概念⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯152.4.2评估测试⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯162.5数据挖掘技术在流量测量中的应用分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯18第3章基于分类算法的流量识别系统设计与实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯203.1网络识别分类算法的研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯203.1.1决策树⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯203.1.2规则推理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.243.1.3K最近邻法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯253.1.4贝叶斯分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..253.1.5网络流量识别算法的比较分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.273.2系统的设计及实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.303.2.1网络流量识别分析系统框架⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯313.2.2数据采集和所用工具⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.323.2.3评估方法与过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯353.2.4评估结果与分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。36第4章基于聚类算法的流量识别系统设计与实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.444.1网络识别聚类算法的研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯454.1.1K-means聚类算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。46 北京邮电大学硕上论文目录4.1.2DBSCAN聚类算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯464.1.3K-medoids聚类算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。474.1.4CURE聚类算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..484.2系统的设计及实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯484.2.1系统框架及功能⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。484.2.2评估方法与过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。504.2.3评估结果与分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.504.3基于分类算法和聚类算法的流量识别系统的比较⋯⋯⋯⋯⋯⋯⋯⋯⋯53第5章结束语⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯55参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。571改谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.60攻读学位期间发表的论文⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯61Ⅱ 北京邮电大学硕.J二论文正文1.1引言第1章绪论随着近年来Intemet持续高速的发展,各种新的网络应用与需求层出不穷,网络承载业务也由传统的WWW、FTP和Email等应用逐步向包括语音、视频和数据等在内的综合业务及增值服务发展,VolP、在线游戏、视频会议、VoD点播、网上购物、电子银行和网上炒股等实时业务己经在Intemet得到广泛应用n1。而与网络规模不断扩大、带宽不断增加和宽带接入用户不断增长对应的却是用户的数量的迅猛增长、网络复杂性的提高和用户对网络连接速度与服务质量抱怨的增加。中国互联网络信息中心(删C)在2004年1月15日发布的第13次《中国互联网络发展状况统计报告》数据显示:截至2003年年底,我国网民数量己经达到7950万,上网计算机达到3089万台,网络国际出口带宽总数达到27216M,互联网已经发展成为国内增长最快、市场潜力最大的产业之一,而用户对当前互联网网络速度的满意程度为40.8%,对当前互联网总体满意度仅有38.9%,IP网络的服务质量(OoS)、可靠性和效率成为用户主要关心的问题。随着网络用户数量的指数增长、网络规模的飞速膨胀,使信息对我们的生活发生着“无网不入一的广泛而深远的影响。但是非关键业务的泛滥正导致运营网络的带宽资源被大量地消耗,影响了其他一些网络关键业务的正常开展。正是因为以上原因,近年来Internet流分类在学术和应用领域备受重视,已形成一个相对独立的研究领域。用户对各类Interact业务的服务质量要求越来越精细;网络管理者需要对各种业务流进行实时的监控与管理;网络服务提供商在规划和建设网络时需要了解网络各类业务流的状况;Intemet研究人员需要关注网络中各种流的特征及相应的用户行为等,这些都离不开Internet流分类技术。通过监控各类应用的网络流量,管理员可以及时发现设备故障,链路拥塞,用户带宽的使用状况等。此外,随着互联网的日益普及,网上传播病毒的种类与数量也越来越多,由此造成的危害也在不断升级。所以,如何有效遏制病毒传播是目前Internet急需解决的难题之一。Thomas等人提到乜】,如果一台主机利用一个或多个源端口扫描多台主机的同一个端口;或者是一台主机利用多个端口扫描另一台主机的多个端口,则这台主机发出的流很可能是攻击流。由此可见,通过识别可疑流,可以及时进行网络管理告警,达到预防病毒泛滥的目的。网络服务提供商通过流分类,可以获悉各类网络应用所占比例,预测网络业务的发展趋势。传统技术采用尽力而为的方式进行包转发,对吞吐量、延迟、延 北京邮电大学硕士论文正文迟抖动和丢包率没有任何保障,把传输损失都留给终端系统来处理,这对于过去以电子邮件传输和网页浏览为主的网络来说基本没有问题。最近几年,Intemet通信无论是在流量还是应用类型方面,都保持着飞速增长。同时音频,视频以及其它实时应用的加入,更是从根本上改变了人们对于Intemet的使用方式。为了适应电话、视频、对等网络应用(P2P,Peer-to-Peer)等新型业务的大量普及,要求新一代的互联网必须能够为不同应用提供不同级别的服务质量(OoS,QualityofService)保障,使用户得到更好的上网体验。因此,流分类已成为提供服务质量中不可缺少的重要手段。对于研究人员,在P2P应用出现之前,网络传输基本上都是遵循客户端/服务器(c/s,Client/Server)模式,从链路带宽设计考虑,他们自然而然地选择了某种数字用户线路(xDSL,xDigitalSubscriberline)模式,即上行带宽小,下行带宽大。然而,最近几年的研究报告表明瞄1,P2P已成为当前网络带宽的“杀手级”应用,其上传/下载比趋近于l,造成传统xDSL网络的上行链路极易拥塞。所以,流分类的另一个重要性在于能够及时了解网络上各种应用流量所占的带宽比例及其趋势,帮助研究人员更合理地规划网络资源,为用户提供更好的服务质量。因此,通过有效的技术手段,对网络流量进行识别以便管理和控制网络中的各种业务流量,为不同应用分配合理的带宽资源,提供不同级别的服务质量保障,是当前网络运营中面临的主要挑战之一。1.2国内外研究现状1.2.1传统网络流量识别技术●传统的流量识别技术主要是通过口地址、端口和协议号来识别,识别的数据介于OSI体系结构的2.7层H1。在早期的各种协议规范中,对于网络层、运输层和应用层上的协议有固定的协议号或端口来区分∞1,在报文分类时通过识别协议号或者端口来识别该数据包的类型晦1。传统的流量识别技术高效快速,易于实现,但是识别的种类有限。随着实时语音,视频数据流在各种网络业务中的应用,对网络流量识别技术也有了新的要求。,1.2.2技术发展现状近年在运输层之上的多媒体实时传输协议,如SIP、H.323,P2P文件传输协议,如Bittorrent、cDonkey和ICQ等,得到了广泛的应用。国内外在这方面的2 北京邮电大学硕上论文正文研究也逐渐发展起来,NationalChung-ChengUniversity的Chia—Yi根据H.323协议对网络流媒体的特征进行了分析,并且改进了传统网络设备中的分类器的体系结构口M。AT&T实验室的研究人员对P2P协议特征进行了分析阳儿101,并且首次提出一套对流量分类的评价体系。华盛顿大学的研究人员对华盛顿大学接入网的出入数据进行研究⋯儿捌,深入比较了P2P流量和传统流量的区别。最近几年的研究主要集中在:对报文分类算法的研究、对基于会话分类的研究、基于应用层内容分类的研究。对报文分类的经典算法:Lakshman和Stidialis提出的BV(BitVector)算法,FlorinBaboescu和GeorgeVarghese提出的ABV(AggregatedBitVector)算法,以及JiLi,HaiyangLiu,KarenSollins等人提出的改进型ABV算法AFBV算法。上述算法跟传统流量识别技术中的算法比较,在规则库中规则数目较多的系统实现中比较有优势。基于端口、会话、内容来识别和控制流量的宽带网络管理产品在国内外已经开始使用。大多数产品都是来自国外的公司,如:Packeteer公司的PacketShaper系列,PacketSeeker系列,NetGuard公司的Gu盯dianPro,CheckPoint公司的FloodGate。Packeteer公司的PacketShaper9500可以识别的网络数据种类有近300种。基于会话、内容的识别技术与传统的流量识别技术比较,识别的种类增多,特别是对于P2P流量的识别有明显的优势。但是由于P2P流量端口的动态分配、数据包上下文相关等特性n31,使得识别这类流量时消耗的资源也大大增加,对于协议未公开或者加密的P2P流量的识别也是流量识别中的一个难点。1.3研究意义P2P应用的泛滥正导致运营网络的带宽资源被大量地消耗,影响了其他一些网络关键业务的正常开展。因此,通过有效的流量识别技术手段,管理和控制网络中的各种业务流量,为不同应用分配合理的带宽资源,提供不同级别的服务质量保障,是当前网络运营中面临的主要挑战之一。Internet网络应用的发展要求下一代路由器必须有能力支持QoS,网络入侵检测、传输测量与记账、负载均衡、拥塞控制等一系列功能,因此要求采用不同的机制来实现这些功能。虽然实现这些功能的技术可能不尽相同,但它们都有一个公共的要求,即路由器应能够识别这些在网络节点处流入和流出的数据包。因此流量识别技术是许多网络技术的基础,它涉及到网络的控制、性能、安全、管理等多方面内容,流量识别技术的优劣直接影响到这些网络技术的性能。3 是综合基于端口号和基于传输层流量特征识别技术优点的分类网络流量识别分析系统,网络流量识别分析系统的实现为掌握网络运行情况,进行异常流量监测,分析和控制各种业务流量,以及为网络优化、网络规划和网络安全提供了一个新型的网络性能评估工具。2、考虑到基于端口和基于特征负载的方法存在着种种缺陷,本文又提出一种基于聚类的流量识别系统。此系统由两个模块组成,离线学习模块在离线状态下对采集的流量数据进行聚类,最后输出聚类的描述(聚类中心);在线识别模块对实时流量数据进行特征计算和归属簇匹配,对实时流量进行分类识别。3、通过进行流量采集和测试,从正确肯定率、建模时间、测试时间、算法的模型描述简洁度等指、CPU使用率和内存消耗等指标对两系统的性能进行综合评估。4、通过对两系统的综合评估,从正确肯定率、实时性、端口的易变性、以及CPU和内存消耗对两系统进行了比较,分析了基于分类算法与基于聚类算法的流量识别系统的优缺点及应用场景。本论文的研究工作紧扣上述发现的问题和相关内容而展开,整个论文共分为五章,论文的各章之间具有较为紧密的内在逻辑关系,具体的组织情况以及各章的内容概括如下:第一章是论文的引言部分,主要对现有传统互联网的现状进行了分析和描述,对网络流量工作的技术发展、必要性进行了阐述,从而阐明了本论文研究的背景、国内外研究现状、意义、目标以及关键研究内容等第二章论述了TCP/IP体系结构下的流量识别技术。然后针对不同的网络流量识别技术进行了比较分析,阐述了它们的优缺点以及流量识别技术的发展趋势,同时也对网络流量识别算法进行了比较分析。最后介绍了数据挖掘技术和机器学习技术应用于流量识别技术的巨大优势。第三章在以上章节对网络识别技术和算法研究与比较分析的基础上,提出了基于分类的网络流量识别分析系统,采用优先级一淘汰综合评估方法并基于15种有监督机器学习算法对系统进行了评估,系统能够正确地识别和分析业务流,并且基于C4.5算法时,系统的性能达到最优。4 北京邮电大学硕士论文正文第四章考虑到传统的流量识别难以适应新型网络的复杂流量特性,提出了一种基于聚类的流量识别分析系统,此系统由离线学习和在线识别两个模块组成,基于5中无监督的聚类机器学习算法对系统进行了评估,系统能够正确的识别和分析业务流。最后根据综合评估系统性能的数据,从正确肯定率、实时性、等方面对基于分类算法与基于聚类算法的两个流量识别系统进行对比分析,指出各自的优缺点及应用场景。第五章结束语总结了论文的主要成果和创新点,同时也指出了论文中尚待解决的问题并对下一步研究工作进行了展望。5 北京邮电大学硕士论文2.1引言第2章流量识别技术与数据挖掘随着近年来Intemet持续高速的发展,各种新的网络应用与需求层出不穷,VolP、在线游戏、视频会议、VoD点播、网上购物、电子银行和网上炒股等实时业务己经在Intemet得到广泛应用;同时网络用户数量也呈指数增长、网络规模飞速膨胀,但是非关键业务的泛滥导致运营网络的带宽资源被大量地消耗,影响了其它一些关键业务的正常开展,降低了网络性能,用户没有得到相应的服务质量,运营商也没有得到利润。因此,必须通过有效的技术手段,管理和控制网络中的各种业务流量,为不同应用分配合理的带宽资源,提供不同级别的服务质量保障,是当前网络运营中面临的主要挑战之一。流量识别在实现提供网络的“信息快照"的步骤中,有着非常关键的作用,同时也是对网络流量,为不同用户提供不同Qos控制、为不同的ISP提供健全的计费系统的前提。随着目前的因特网网络流量中传统的流量所占用的比例越来越低,而与此同时P2P流量和多媒体流量所占的比例越来越大,应用层流量识别的难度也不断增大。这些动态的流量削弱了原来的基于包识别方法和熟知端口号识别方法的精确度,由此造成了对网络性能评估和网络应用分析的的不准确性,因此通过有效的技术手段,对网络流量进行识别进而对分析整个网络流量的特征有着重要的意义。2.2网络业务流量识别技术的分析与比较随着网络带宽的不断提高,实时音频/视频,网络游戏,P2P文件共享等新应用不断出现,很大程度上改变了用户对于互联网的使用方式,导致网络业务应用流量的比例发生了根本性变化n引。传统的网络应用(如Http、FrP、TELNET以及SMTP等)具有统一的标准和规范,在实际运行中大多采用固定端口号进行通信,因此,对于这类应用协议,早期的网络管理员等可以根据数据包头截取的端口号码直接分类业务流量,并针对不同的应用执行不同操作,达到优化网络、提高服务质量的目的。然而,近年来一些新型应用协议基于安全性、灵活性等考虑,越来越多地使用动态端口号进行通信,如流媒体,网络游戏和P2P文件共享等n础;有的进行了加密(比如通过SSLVI'N进行远程接入访问内部局域网)。因此,原有的流量识别技术已不再适用,流量识别分类技术的研究面临着新的挑6 北京邮电人学硕士论文正文战。2.2.1基于端口号的流量识别技术对于采用固定端口号进行通信的应用,流量识别技术非常简单,通过截取TCP(图2.1TCP数据报文格式)以及UDP数据报(图2.2UDP数据报文格式)的5元组,将其中的端口号与业务应用类型一一对应起来即可,并且其准确性和实时性都比较令人满意,属于确定性的识别技术,即根据某些标准直接判断出数据包所属的协议。然而,随着各种新型应用的不断出现,网络地址转换(NAT,NetworkAddressesTransformation)以及代理技术的使用等,端口号已经无法作为识别流量的唯一标识。源端口目的端口发送序号接收序号U^PSr数据偏移保留RCSYI窗口GKHN校验和紧急指针选项和填充数据图2.2UDPff#.-据包格式但即使这样,基于端口号的流量识别技术因为实现原理简单,技术成熟,适用于高速网络上的实时流量识别分类,目前还未被完全淘汰。例如,在很多关于P2P流量特征的研究文献n61中仍然使用默认端口号作为P2P流量的识别方法。2.2.2基于特征字段的流量识别技术该方法常被称为深度包检测技术DPI(DeepPacketInspection)。主要用于识别P2P协议流量,此类流量占网络总流量的比例逐年增加,在很多网络中甚至超过了50%,所以,一旦能准确识别出P2P流量,则流量识别分类问题可谓已解决了一大半。这种方法基于应用层的内容来对网络流量进行识别,目前己经成为进一步细化网络流量识别技术的关键。深度包检测技术不仅仅检测网络层和传输层7 \它们之间的连接,BitTorrent服务器不负责为peers搜索文件,在BitTorrent网络中peers通过w曲上传种子文件(torrent),通过点击种子文件的超链接开始下载。因此,BitTorrent网络没有搜索阶段,通过研究传输阶段的数据段来提取特征值。peers之间的连接始终是以一个固定长度的握手消息开始的,于是可以通过提取如下的特征值来识别BitTorrentprotocol:(1)TCP载荷第一个字节的值是特征值19(0x13)。(2)接下来19个字节的值匹配于字符串“BitTorrentprotocol"。2.2.2.2eDonkeyprotocoleDonkey网络是由peers与eDonkey服务器组成n81。在搜索阶段,每一个peer通过TCP连接到一个eDonkey服务器上,并发送一个查询请求到它们的eDonkey服务器上,通过服务器来查找能够提供所需内容peers的信息;在传输阶段,peers通过TCP直接建立连接,然后下载各自所需的内容。可以通过提取如下的特征值来识别eDonkeyprotocol:8 北京邮电大学硕上论文正文(1)在TCP头后面第一个字节的值是eDonkeyMarker(Oxe3)。(2)接下来4个字节是packagcfength,其值是TCP数据段的长度减去eDonkey头(5字节)。2.2.2.3GnutellaprotocolGnutella是一个纯分布式协议,在GnuteUa网络中,每一个peer既是客户端又是服务器,因此客户端与服务器都集中在一个系统中,称之为servant。一个Gnutellaservant通过与另一个当前在网络中的servant建立连接来使自己与网络相连。一旦一个servant成功连接到网络上,它与其它servant通过发送和接收Gnutella协议描述字来搜索网络一这就是Gnutellaprotocol的搜索阶段;真正的文件传输阶段是通过HTlV协议在请求的servant与拥有请求文件的servant之间进行传输。通过提取如下的特征值来识别GnuteUaprotocol:(1)在TCP头后面的第一个字符串匹配于“GNUTELLA",“GET’’,或者“HTrP’’。(2)如果开始的字符串是“GET’’或“唧’’,将包括下面其中之一的字符串:User-Agent:
此文档下载收益归作者所有