资源描述:
《基于特征加权朴素贝叶斯分类算法的网络用户识别》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于特征加权朴素贝叶斯分类算法的网络用户识别要:基于网络用户的访问记录,提出了采用特征加权的朴素贝叶斯分类算法对用户进行识别。首先利用基于winpcap框架的数据采集系统对用户访问记录进行采集,通过分析记录从5个方面对用户特征进行统计,并经过筛选后对特征进行选取,最后采用特征加权的朴素贝叶斯分类算法对3300个测试样本进行识别,识别率达到了85.73%o户身份的识别c■■用户识别;朴素贝叶斯分类器;特征加权;特征选择;数据采集abstract:basedontheaccesslogsofnetworkusers,featureweightingnaivebayesianclassifica
2、tion(fwnbc)algorithmwasusedtoidentifyusers・firstly,thedataacquisitionsystembasedonwinpcapframeworkwasusedtocol1ecttheaccesslogsofnetworkusers,featureswerecountedfromfiveaspectsbyanalyzingtheseaccesslogs,andthenselectedafterfiltering,atlastthefwnbcalgorithmwasusedtoidentifythe3300samples,andthereco
3、gnitionratereached85.73%・theexperimentalresultsshowthatthisalgorithmiseffectivetoidentifythenetworkusers・keywords:useridentification;naivebayesianclassifier;featureweighting;featureselection;dataacquisitiono引言随着我国网民数量的不断增多,与网络应用相关的问题也日益凸显出来,如利用网络发布淫秽、反动信息等等。如何对网络用户行为进行有效监管已成为一大热点问题。用户识别作为网络监管的一种手段
4、,对于用户行为追踪、网络责任人认定等有着重要的意义。网络用户识别就是通过分析网络用户的特点、构成及其在网络应用过程中行为活动上所表示出来的规律,通过离线学习、提取相关特征后对用户身份进行鉴别或者识别的过程1]为学、知识发现、数据挖掘等范畴的内容,也可以将其简化为用户行为的分类问题。冃前有许多分类方法用于构造分类模型,常见的机、遗传算法、贝叶斯网和朴素贝叶斯等4-5]6]数学基础以及稳定的分类效率。由于其假设属性集中各属性相对于决策属性独立且重要性相等,这使得冗余的、与分类无关的、相互影响的以及被噪声污染的特征和其他特征具有相同的地位,致使分7]harry等人提出了加权朴素贝叶斯分类器8]7
5、]基于特征加权的朴素贝叶斯分类算法,张明卫等人9]提出了基于相关系数的加权朴素贝叶斯(weightednaivebayesian,wnb)算法等。实验表明,上述改进都能在一定条件下提高朴素贝叶斯分类性能。本文采用特征加权的朴素贝叶斯分类算法对用户身份进行识别。通过对网络用户行为特征的分析,采用卡方检验(chisquaretest,chi)算法对特征进行了提取,并采用文本频率与反文本频率(termfrequencyinversedocumentfrequency,tfidf)算法对特征进行加权计算,最后利用加权的朴素贝叶斯分类算法对用户身份进行识别,实验表明该算法可以有效地对用户身份进行识别
6、。1朴素贝叶斯用户识别模型基于朴素贝叶斯分类器的用户身份识别算法,是对朴素贝叶斯分类算法的一种全新应用尝试,但在实现方法及原理上都是相同的,其目标就是通过给定的样本特征值(x1,x2,…,xn),map=argmaxp(ci
7、xn)(1)根据贝叶斯公式,式(1)可展开为:map=argmaxp(x1,xi)p(ci)p(x1,x2,•••,xn)(2)其中p(xl,x2,-,xn)值是相互独立的,所以有:ci)二LEnj二lp(xi)(3)p(x1,x2,…,xn因此利用朴素贝叶斯公式可进一步将式(1)简化为:vmap=argmaxTlnj二lp(xj
8、ci)p(ci)(4)其中条件概率P
9、(X1
10、ci),p(x2
11、ci),•••,p(xn
12、ci)和先验概率P(ci)分类算法的用户行为识别模型可简化如图1所示。2预处理及特征提取2.1数据预处理预处理是用户身份识别的基础。在众多的网络行为中用户的访问行为是最直接的,也是最能体现用户行为的特征。通过对访问记录的分析,本文将利用记录中的以下字段对数据进行预处理:传输层协议号、应用层协议号、源ip地址、目的ip地址、通信开始时间、通信结束时间、数据包数、请求方式、