资源描述:
《基于主成分分析提升朴素贝叶斯》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第25卷第4期增刊仪器仪表学报2004年8月基于主成分分析提升朴素贝叶斯李海军‘王枉旋2王利民2苑森森“,(烟台大学计算机学院烟台264005)“(吉林大学计算机科学与技术学院长春130012)摘要在特征属性相对于类属性统计独立时,朴素贝叶斯能达到最优的分类效率。但该条件独立性假设在许多现实问题中并不成立,这将在某种程度上影响预测准确度。这里结合主成分分析(PCA)对原进行,消除噪声并使数据分布具有一定程度的独立特性。在UCI数据集上分别从独立性和预测准确度方面进行好的效果。关键词模式识别朴素妙斯,条件独立性假设vImprovingPerformanceofNa
2、iveBayesbyPrincipalComponentAnalysisLiHaijun'WangZhengxuan'WangLimingYuanSenmia02'(SchoolofComputer,YantaiUniversity,Yantai264005,China'(CollegeofComputerScienceandTechnology,JilinUniversity,Changchun130012,ChinaAbstractNaiveBayesisknowntobeoptimalifpredictiveattributesareindependent
3、giventheclass.Buttheconditionalindependenceassumptionisrarelyvalidinpracticallearningproblemsandwhenviolated,theclassifi-cationperformancemaybeaffectedtosomeextent.Theprincipalcomponentanalysis(PCA)isusedtomakedatasethavesomeindependencecharacteristicsandremovenoisefromdata.Experimen
4、talresultsonavarietyofUCIdatasetssuggestgreatimprovementfromtheviewpointofpredictionaccuracyandindependenceassumption,re-spectively.KeywordsPatternrecognitionNaiveBayesConditionalindependenceassumptionPCA属性的提取以简化网络结构,消除数据中的噪声。在1引言UCI机器学习数据库的实验结果验证了所提出的理论与方法的有效性。朴素贝叶斯(NaiveBayes,简称NB)
5、建立在特征属性相对于类属性统计独立的假设前提下,不仅以指2主成分分析(PCA)数级降低了网络构造的复杂度,而且性能可以与神经网络、决策树相比,广泛应用于模式识别、工业控制、经定义{X=L,Xn,C}是样本空间E的属性集。其中:济预测、医疗诊断等诸多领域〔1^5]。但是在现实问题中X,(i=1,L,m)是连续特征属性,X;(j=m+1,L,n)是所需要处理的数据往往具有杂乱性、重复性、不完整离散特征属性,C是类属性。其取值分别用相应的小写性,这使得朴素贝叶斯的条件独立性假设很难满字母表示。S、为连续属性集X={X=L,X-}的所有样足仁6-7]。如果直接应用将在一
6、定程度上影响预测准确本构成的协方差矩阵。P(")表示离散的概率值,度。P()表示概率密度函数值。这里结合主成分分析法(PrincipalComponent设S、的m个特征值和与之对应的特征向量分别Analysis,简称PCA)对数据进行预处理:首先通过对为X=L,am和u=L,u,,其中特征向量u;是一个列向量样本空间的正交旋转变换,在原始信息无损的前提下u;=(u;=L,u;m)T。根据正交矩阵U=(u=L,um)T构造使数据分布具有一定程度的独立特性;然后进行连续新属性集YT=(Y=L,Y,)T=UXT。根据雅可比行列式第4期增刊基于主成分分析提升朴素贝叶斯
7、的定义有x=)=P(cIYl,A,Ym,xm+,,A,x=)。另外,由于多元高斯向111=IUI=1量的线性变换仍为多元高斯分布的向量,并且高斯分这样,Y的联合概率密度函数与x的联合概率密布中不相关性等价于独立性。因此,如果x=A,xm服度函数之间的关系为:从多元高斯分布,则Yi,A,Ym也服从多元高斯分布,P(x=L,xm)并且各变量之间相互独立。p(y=L,Ym)p(x=L,x,)(1)一!JI一可见,通过正交旋转变换,原有的特征属性集{X1,设OX为{Xm+,,L,X,,C}的任意子集,由于YT=A,x}}在原始信息无损的前提下映射为{Y=A,Ym,UXT
8、的成立条件与ox的取值无