资源描述:
《简单朴素贝叶斯分类器的思想与算法分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、22简单朴素贝叶斯分类器的思想与算法分析简单朴素贝叶斯分类器的思想与算法分析在数据仓库和数据挖掘应用中,分类是一种非常重要的方法.分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型,即我们通常所说的分类器(Classifier).该函数或模型能够把数据集合中的数据记录映射到给定类别中的某一个值,从而可以应用于数据预测.目前,分类的主要算法有贝叶斯算法、决策树算法(如ID3、C4.5等)、规则推导、人工神经网络、最近邻算法、支持向量机等等.这些算法在许多现实数据集合上具有较好的预测精度.其中
2、朴素贝叶斯算法具有良好的可解释性等,在实践中的应用最为广泛.朴素贝叶斯算法是基于统计理论的方法,它能够预测所属类别的概率.简单朴素贝叶斯分类器假设一个指定类别中各属性的取值是相互独立的.这一假设称为给定类别条件下的独立性(ClassConditionalIndependence)假设,它可以有效减少在构造分类器时所需要的计算量.简单朴素贝叶斯算法的分类模型是基于Bayes定理的,下面就简单介绍一下Bayes定理.设X为一个类别未知的数据样本,H为某个假设,C表示类别集合,若数据样本X属于一个特定的类别c,
3、那么分类问题就是决定P(H/X),即在获得数据样本X时,H假设成立的概率.由于P(H),P(X),P(X/H)的概率值可以从(供学习使用的)数据集合中得到,Bayes定理描述了如何根据P(H),P(X),P(X/H)计算获得的P(H/X),有关的具体公式定义描述如下:(1)简单朴素贝叶斯分类器进行分类操作的步骤说明如下:1.每个数据样本均是由一个n维特征向量X={x1,x2,……,xn}来描述其n个属性(A1,A2,……,An)的具体取值.2.假设共有m个不同类别,{C1,C2,……,Cn}.给定一个未知
4、类别的数据样本X,分类器在已知样本X的情况下,预测X属于事后概率最大的那个类别.也就是说,朴素贝叶斯分类器将未知类别的样本X归属到类别Ci,当且仅当:P(Ci/X)>P(Cj/X)其中1≤j≤m,j≠i.也就是P(Ci/X)最大.其中的类别Ci就称为最大事后概率的假设,根据Bayes定理可知,(2)3.由于P(X)对于所有的类别均是相同的,所以,要使公式(2)取得最大值,只需要P(X/Ci)P(Ci)取最大即可.类别的事前概率P(Ci)可以通过公式P(Ci)=si/s进行估算,其中si为训练样本集合类别C
5、i的个数,s为整个训练样本集合的大小.4.根据所给定包含多个属性的数据集,直接计算P(X/Ci22简单朴素贝叶斯分类器的思想与算法分析)的运算量是非常大的.为实现对P(X/Ci)的有效估算,朴素贝叶斯分类器通常都是假设各类别是相互独立的即各属性的取值是相互独立的.即:(3)可以根据训练数据样本估算P(X1/Ci),P(X2/Ci),……,P(Xn/Ci)的值,具体处理方法说明如下:若Ak是名称型属性,就有P(Xk/Ci)=sik/si,这里sik为训练样本中类别为Ci且属性Ak的取值为vk的样本数,si为
6、训练样本中类别为Ci的样本数.若Ak是数值型属性,那么假设属性具有高斯分布,概率P(Xk/Ci)就用概率密度f(Xk/Ci)代替,即(4)其中,g(xk,μci,δci)为属性Ak的高斯规范密度函数,μci,δci为训练样本中类别为Ci的属性为Ak的均值和方差.数值型属性的均值计算公式为:xmean=(x1+x2+……+xn)/n,其中x1,x2,……,xn表示数值型属性的值,n表示实例个数.数值型属性的方差计算公式为:(5)其中x1,x2,……,xn表示数值型属性的值,xmean表示方差,n表示实例个数
7、.5.为预测一个样本X的类别,可对每个类别Ci估算相应的P(X/Ci)P(Ci),样本X归属到类别Ci,当且仅当:P(Ci/X)>P(Cj/X)其中1≤j≤m,j≠i.也可通过求百分比percent(Ci)=P(Ci/X)/∑P(Ck/X),百分比最大值对应的类标就位样本X的类别.下面就以有关天气问题的数据为例仔细介绍一下朴素贝叶斯分类器进行分类的过程.有关天气的数据如下表所示:outlook(类型)temperature(温度)humidity(湿度)windy(风)play(玩)sunny8585Fa
8、lseNosunny8090TrueNoovercast8386FalseYesrainy7096FalseYesrainy6880FalseYesrainy6570TrueNoovercast6465TrueYessunny7295FalseNosunny6970Falseyesrainy7580Falseyessunny7570Trueyesovercast7290Trueyesovercast8175Falseyesra