欢迎来到天天文库
浏览记录
ID:14362598
大小:127.50 KB
页数:2页
时间:2018-07-28
《朴素贝叶斯分类算法在数据预测中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第1O卷第5期VO1.10NO.52011年5月Mav2O11朴素贝叶斯分类算法在数据预测中的应用冯现坤,刘羽,蒋细芳(桂林理工大学,广西桂林541004)摘要:朴素贝叶斯分类方法是数据库分类知识挖掘领域的一项基本技术,并具有广泛的应用。使用贝叶斯分类算法实现了对经典数据集Iris的分类。实践表明,朴素贝叶斯分类是一种有效的数据挖掘分类算法。关键词:数据挖掘;朴素贝叶斯分类;数据预测;鸢尾花(Iris)数据集中图分类号:TP312文献标识码:A文章编号:1672—7800(2011)05~0065—02算X属于每一个类别C的概率。1数据挖掘P(XlC)*P(C),然后选择概率最大的类
2、别作为其类别。许多人把数据挖掘视为另一个常用的术语:数据中的若朴素贝叶斯分类算法将未知数的数据样本X分配知识发现。数据挖掘就是从大量的、不完全的、有噪声的、给,则需要满足:模糊的、随机的数据中提取隐含在其中的、人们事先不知P(IX)>P(【X),P(cIX)>P(ciIX),1≤J≤YFt,i≠J道的,但又是潜在的、有用的信息和知识的过程。从理论上来讲,朴素贝叶斯分类算法与其他算法相比本文利用数据挖掘中的朴素贝叶斯分类技术来研究有着最小的错误率,在实践中朴素贝叶斯分类算法还可以鸢尾花数据集中有关于鸢尾花分类问题。以鸢尾花数据和神经网络算法和判定树等分类算法相媲美,并且它的适集为对象,
3、尝试通过数据挖掘中的朴素贝叶斯分类技术对应性也很强,执行效率高,在给定的N个属性的M个训练数据进行分析,实现对鸢尾花所属分类进行预测,发现鸢集,学习时间的复杂度为O(N*M),这使得它在现实中尾花所属分类与鸢尾花各项数据之间的联系,有助于对鸢有着广泛的应用。尾花的培养进行管理。3实例2朴素贝叶斯分类算法假设每个数据样本用一个维特征向量来描述”个属性的值,即X一{5/7,⋯..,z},假设有个类,分别用c,c⋯.,c表示。给定的一个未知的数据样本X(没有标明属于哪个类),根据贝叶斯定理得:P(Jx)一P(Jx)一旦一~一一由于P(x)对于所有类为常数,所以,最大后验概率P(ClX)P(
4、【X)可以转化为从最大先验概率P(X)*P(C)计算得到。如果训练数据集有很多元组和属性,计算P(XfC)的开销可能非常大,为此,通常假设各属性的取值是相互独立的,这样先验概率P(-zIC),P(。IC,),⋯,P(1C)都可以从训练数据集求得。根据此方法,对于类别未知的样本x,可以先分别计作者简介:冯现坤(1985一),男,江苏徐州人,桂林理工大学信息科学与工程学院硕士研究生,研究方向为数据挖掘与数据库技术;刘羽(1961一),男,广西桂林人,博士,桂林理工大学机械与控制工程学院副院长、教授,研究方向为并行计算、数据挖掘;蒋细芳(1985一),女,湖北成宁人,桂林理工大学信息科学与
5、工程学院硕士研究生,研究方向为数据挖掘。.66.软件导刊2011年作为训练数据集(可随机选取,这里为了实验计算方便,每(3)求最大后验概率P(C}X)。种类别均选取了2O个样本),预测一个未知的数据所在分根据贝叶斯定理后验概率可以通过求先验概率来得类。到,即P(XlC)*P(C。),这里可以得到如下数据:若从预测数据集中读出如下数据(5.4,3.7,1.5,P1一P(X}category—setosa)*P(setosa)=0.0072*0.2),其中对应的4个属性类别分别为花萼长(calyxO.33—0.002376—length)、花萼宽(calyxwidth)、花瓣长(peta
6、l—length)、花P2一P(Xlcategory=versicolor)*P(versieolor)一0*—瓣宽(petal—width)。3个分类类别分别为setosa(用C表0.33—0示),versicolor(用表示),virginica(用C3表示)。P3一P(XJcategory—virginica1)*P(virginica1)一0*朴素贝叶斯分类算法的步骤如下:0.33—0(1)计算训练数据集中每个种类所占的比例。(4)判断P,P,P。的大小:Max(P,P。,P。)。因为6O个训练数据集中每个种类均选取了20个样在这里Max(P,P,P。)一P,所以我们把预测数
7、据分本,所以在训练数据集中对于鸢尾花的3个种类出现的概类在P类,即Iris—setosa类别。实际上预测数据的类别率为:就是Iris-setosa。如果Max(Pl,P2,P3)一P2,那么分在P(setosa)=P(versicolor)一P(virginica)一1/3。versicolor类,如果Max(P,P2,P3)一P3那么分在virgini—(2)计算每个属性在训练数据集中的条件概率P(XIcal类。我们通过这个过程说明如何使用朴素贝叶斯分类
此文档下载收益归作者所有