资源描述:
《分类-数据挖掘-韩家炜-3.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、本讲内容贝叶斯分类基于神经网络的分类2021/9/21BayesianClassification是一种基于统计的分类方法,用来预测诸如某个样本属于某个分类的概率有多大基于Bayes理论研究发现,NaïveBayesClassifier在性能上和DecisionTree、NeuralNetworkclassifiers相当。在应用于大数据集时,具有较高的准确率和速度NaïveBayesClassifier假设属性值之间是独立的,因此可以简化很多计算,故称之为Naïve。当属性值之间有依赖关系时,采用BayesianBeliefNetworks进行分类。2021/9/22B
2、ayesianTheorem:Basics假设X是未知分类标号的样本数据H代表某种假设,例如X属于分类CP(H
3、X):给定样本数据X,假设H成立的概率例如,假设样本数据由各种水果组成,每种水果都可以用形状和颜色来描述。如果用X代表红色并且是圆的,H代表X属于苹果这个假设,则P(H
4、X)表示,已知X是红色并且是圆的,则X是苹果的概率。2021/9/23BayesianTheorem:BasicsP(H):任一个水果,属于苹果的概率.(不管它什么颜色,也不管它什么形状)P(X):任一个水果,是红色并且是圆的概率(不管它属于什么水果)P(X
5、H):一个水果,已知它是一个苹果,则
6、它是红色并且是圆的概率。P(H
7、X):一个水果,已知它是红色并且是圆的,则它是一个苹果的概率。2021/9/24BayesianTheorem:Basics现在的问题是,知道数据集里每个水果的颜色和形状,看它属于什么水果,求出属于每种水果的概率,选其中概率最大的。也就是要算:P(H
8、X)但事实上,其他三个概率,P(H)、P(X)、P(X
9、H)都可以由已知数据得出,而P(H
10、X)无法从已知数据得出Bayes理论可以帮助我们:2021/9/25NaïveBayesClassifier每个数据样本用一个n维特征向量表示,描述由属性对样本的n个度量。假定有m个类。给定一个未知的数
11、据样本X(即,没有类标号),分类法将预测X属于具有最高后验概率(条件X下)的类。即,朴素贝叶斯分类将未知的样本分配给类Ci,当且仅当:这样,我们最大化。其最大的类Ci称为最大后验假定。根据贝叶斯定理:2021/9/26NaïveBayesClassifier由于P(X)对于所有类为常数,只需要最大即可。如果类的先验概率未知,则通常假定这些类是等概率的;即,。并据此只对最大化。否则,我们最大化。类的先验概率可以用计算;其中,si是类C中的训练样本数,而s是训练样本总数。2021/9/27NaïveBayesClassifier给定具有许多属性的数据集,计算的开销可能非常大。
12、为降低计算的开销,可以朴素地假设属性间不存在依赖关系。这样,概率,,…,可以由训练样本估计,其中,(a)如果Ak是分类属性,则;其中sik是在属性Ak上具有值xk的类Ci的训练样本数,而si是Ci中的训练样本数(b)如果是连续值属性,则通常假定该属性服从高斯分布。因而,其中,给定类Ci的训练样本属性Ak的值,是属性Ak的高斯密度函数,而分别为平均值和标准差。2021/9/28NaïveBayesClassifier为对未知样本X分类,对每个类Ci,计算。样本X被指派到类Ci,当且仅当:换言之,X被指派到其最大的类Ci。2021/9/29TrainingdatasetCla
13、ss:C1:buys_computer=‘yes’C2:buys_computer=‘no’DatasampleX=(age<=30,Income=medium,Student=yesCredit_rating=Fair)2021/9/210NaïveBayesianClassifier:AnExampleComputeP(X
14、Ci)foreachclassP(buys_computer=“yes”)=9/14=0.643P(buys_computer=“no”)=5/14=0.357P(age=“<30”
15、buys_computer=“yes”)=2/9=0.222P(
16、income=“medium”
17、buys_computer=“yes”)=4/9=0.444P(student=“yes”
18、buys_computer=“yes)=6/9=0.667P(credit_rating=“fair”
19、buys_computer=“yes”)=6/9=0.667P(age=“<30”
20、buys_computer=“no”)=3/5=0.6P(income=“medium”
21、buys_computer=“no”)=2/5=0.4P(student=“yes”
22、buys_computer=“no”)=1/