基于贝叶斯方法的q型聚类算法研究

基于贝叶斯方法的q型聚类算法研究

ID:33977402

大小:83.40 KB

页数:3页

时间:2019-03-02

基于贝叶斯方法的q型聚类算法研究_第1页
基于贝叶斯方法的q型聚类算法研究_第2页
基于贝叶斯方法的q型聚类算法研究_第3页
资源描述:

《基于贝叶斯方法的q型聚类算法研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于贝叶斯方法的Q型聚类算法研究“余丽瞇汉理工大学信息工程学院武汉430070)摘要聚类分析根据类对象划分为Q型聚类和R型聚类,基丁贝叶斯方法的Q型聚类算法,详细说明该算法的基本思想和具体实现过程。实验结果表明算法的可行性,该算法对于数据挖掘具有一定的参考价值。尖键词数据挖掘聚类分析贝叶斯中图分类号TP274+.23收到本文时间:2006年9月11日作者简介涂丽,女,硕士研究生,研究方向:信息系统理论与技术1引言数据挖掘中常用的聚类方法有划分聚类算法、层次聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于模型的聚类算法以及模糊聚类算法,贝叶斯方法的显著特点是它可以通过结果来了解假

2、设,在对先验知识知之甚少的情况下,贝叶斯方法具有以上聚类方法不可比拟的长处。而数据挖掘就是耍挖掘先前未知的知识,具有先前未知、有效和实用三个特征。凶此,本文介绍将贝叶斯方法应用于数据挖掘的聚类分析中。2聚类分析聚类分析的基本思想是认为所研究的数据集屮的数据或者属性之间存在着程度不同的相似性O从数据集中取出一批数据,具体找出一些能够度量数值之间或者属性之间的相似程度的量,以这些量为屮心作为划分类型的依据,把一些相似程度较大的数据或属性聚为一•类,把另外一些彼此之间相似程度较大的样品又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有的数据或者属性

3、都聚合完毕。聚类的实质是使属于同一类别的个体之间的距离尽可能小,而不同类别的个体之间距离尽可能大。因此需要用到各种不同的距离度量来判定类别。比较常用的距离公式有:(1)绝对值距离:dy=El-^>1⑴k=1(2)欧氏距离.•心二[占(心・1/2(2)⑶汉明距离:dk(XhX/=[t\xit-x*I,"⑶3数据挖掘中常用的贝叶斯公式设事件儿,A2tA3Ak构成互不相容的完备事件组,{P(Aj),j=},2灯表示先验分布,由于事件B的发牛,可以对人,玉,缶人发牛的概率提供新的信息,丿,21,2匕表示后验分布。则概率论中的贝叶斯公式为••P(B

4、心PSJ耳"BAJ)P(AJ)用随机变量

5、的形式吹写公式(4丿并引入离散型随机变量B,它的取值是鮎23际,其中①乂⑺丿表示的是当仏发生时P的取值为巧,先验分布兀。丿为.久j)==0j)=P(Aj)B是另外一个随机变量,定义一个随机变量X.r则公式⑷中的P(B如表示为P(xPj)^:P(BAj)=P(xpj)=P(xP=0力二1,2ko那么,根据公式(4丿,可以得到;P,

6、x)二PQ=61x)PLxf)JitX)L)_^P(xpj)nQ丿21,2k⑸4基于贝叶斯方法的聚类算法聚类分析通常根据类对象的不同分为Q型和R型两大类,Q型是对数据集屮的数据值进行分类处理,R型是对属性进行分类处理。本文研究的是Q型聚类。根据贝叶斯方法和

7、Q型聚类的基本思想设计如下算法:第一步••确立聚类中心数据值;第二步.•以聚类中心数据为聚类依据,根据先验信息假定出分布兀Q丿,兀Q丿即为先验分布,并作为贝叶斯公式的先验概率;第三步••调用聚类算法进行聚类,具体算法如下••设聚类中心对应的类为GQ,GG,需要聚类的数据样本为A,伽,川均为正整数丿Ci,q,GG均为集合o(U设某一聚类屮心数据为4,相应的类为G则c,=/tjo(2)对样本数据中的任一数据U1O心),按照公式⑴、⑵或(3)进行距离的运算,设所得到的距离值为d,IFd①聚类阈值f,1HB4C=qU/ti)二{A,tjENDIF⑶转到第⑵步。第四步••根据公式⑸计算出聚类

8、后的后验概率。第五步.•用第四步得到的后验概率作为检验聚类结果的标准。若符合用户的要求,则整个算法过程结束,•否则就需要修改先验分布的部分参数或重新确立新的先验分布,克到所得到后验概率符合用户的要求。5实验结果取点距离取点距离122.553122.463223.015223.480323.031323.520423.025423.575523.000523.560622.960622.465723.063723.495823.081823.472923.081923.4401023.0861023.736表1••第一组表2••第二组图1表示的是处理之前各点的分布图。在执行算法的过程中

9、阈值表示的是两个测量点之间的欧氏匪离,取阈值/=Q0007,当dv用寸点聚为一类。执行聚类算法后,得到的聚类结果如图2。多次测ht某点到一建筑物的距离,得到两组距离的数据,从每组数据中抽取十条记录得到表1、表2。由于建筑物表面凹凸不平,被测量的点位于开同的平面,聚类的要求是把位于同一垂直平面上笊点聚为一类。6结束语246810取点.lg.9.8.7.6.533222222222222:•-O5O5Q5Q5O776&5S4422.22.22.22.22.22

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。