资源描述:
《基于概率保真度聚类研究算法和应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于概率保真度聚类研究算法和应用摘要:聚类分析是数据挖掘的主要任务之一,而现有的聚类分析算法大多基于传统的相似性度量方法。该文在研究相似性度量的理论基础上,提出了一种新的相似性度量方法,该方法包含两个部分:总量相似度和结构相似度,进而提出了基于概率保真度的聚类分析算法,并通过实例分析证明该算法是合理可行的。关键词:聚类分析;数据标准化;相似性度量;概率保真度;教学质量评价中图分类号:TP391文献标识码:A文章编号:1009-3044(2013)30-6700-051概述在信息处理过程中,聚类分析[1]是一种常用且非常重要的方法,其的基本思想是用相似
2、性尺度来衡量事物之间的亲疏程度,并以此来实现聚类,即一个类中的对象相似性大,不同类中的对象相似性小。聚类分析的实质就是根据研究对象本身的属性来构造相似矩阵,在此基础上根据一定的阈值来确定其分类关系,其主要步骤包括确定对象统计指标与数据标准化、标定距离以建立相似矩阵、聚类和聚类结果评估[2,3]。聚类分析方法多种多样,按不同标准可分为不同的类型,按照聚集规则大致可分为层次化聚类法、划分式聚类法、基于密度和网格的聚类法和其他聚类法[4]。聚类分析方法已广泛应用于社会的各个领域,如:语音识别[5]、字符识别[6]、图像分割[7]、信息检索[8]等,聚类分析
3、的研究有助于各个领域的发展,进一步探讨聚类分析算法及其应用是十分必要的。该文的目的在于引入一种新的相似性度量方法,并且将它应用于层次聚类法中。2基于概率保真度的相似性度量建立相似矩阵又称为标定,即标出衡量被分类对象间相似程度的统计量[rij]o建立相似矩阵是聚类分析算法中的关键步骤,传统度量相似性的方法主要有相似系数法、距离法、主观评分法、夹角余弦法等。下面介绍一种新的相似性度量方法来建立相似矩阵。(4)3.1数据的标准化处理实际中的数据通常具有不同的性质和量纲,有些变量的绝对值大些,有些变量的绝对值小些,因此,直接使用原始数据进行计算,就会突出了那
4、些绝对值大的变量,而压低了那些绝对值小的变量。所以,为了使原始数据能够适合聚类的要求,需要将原始数据矩阵做标准化处理,即做适当的数据变换和压缩,以方便后面的处理。3.4聚类根据相似度越大的对象越先聚集在一起的原则进行聚类,具体步骤如下:1)找出[Rm]中的非对角线上的最大元素,设这个最大元素是[rpq],将该最大元素所对应的行[Tp]和列[Tq]代表的对象合并为一类[Tt={p,q}];计算WP矩阵中[Tp]和[Tq]两行的平均值作为该类[Tt]的重心,计算公式为:[wt二wp+wq2],[ptk=ppk+pqk2,(k=l,2,・・・n)];计算新
5、类[Tt]与其他未聚合类的相似度。2)在[Rm]中消去[Tp]和[Tq]所对应的行和列,并加入由新类[Tt]与剩下的其他未聚合的类的相似度所组成的一行和一列,得到一个新的相似矩阵[Rm-l]o3)从[Rm-1]出发重复上述步骤,直至[m]个样品聚为一个大类为止。4算法的应用5结束语本文在研究相似性度量的理论基础上,提出了一种新的相似性度量方法,该方法包含两个部分:总量相似度和结构相似度,并在此基础上探索了基于概率保真度的聚类分析方法。该文中的相似性度量方法还可以进一步应用到动态聚类法、划分式聚类法和其他聚类法中去,希望本文的结果能为进一步探讨聚类分析
6、算法有所帮助。参考文献:[1]JainAK,DubesRC.Algorithmsforclusteringdata[M].PrenticeHallAdvancedReferenceSeries,1988,1-334.[2]JainAK,MurtyMN,FlynnPJ.Dataclustering:Areview[J].ACMcomputingSurveys,1999,31(3):264-323.[1]SambasivamS,TheodosopoulosN.AdvaneedDataClusteringMethodsofMiningWebDocument
7、s[J]IssuesinInformingScienceandInformationTechnology,2006(3):563-567.[2]孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008,9(1):48-61.[3]王迎庆•利用分级模糊聚类分析自动识别语音[J].计算机学报,1989,12(2):134-139.[4]黄文杰•基于聚类分析的车牌字符识别方法与应用[J]•中国测试技术,2008,34(4):76-80.[5]卢志茂,范冬梅,陈炳才,等.一种基于数据竞争的高分辨率图像的聚类分割算法[J].中国科学:信息科学,2012,4
8、2(9):1147-1157.[6]范小春•关于信息检索中应用模糊聚类分析的若干问题[J]•科学技术与工程,