资源描述:
《数据仓库数据挖掘chap》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第六章聚类分析南京邮电大学经济与管理学院朱恒民hengminzhu@163.com第六章聚类分析6.1基本概念6.2聚类分析中的数据类型6.3主要聚类分析方法6.1基本概念——什么是聚类分析?簇(Cluster):数据对象的集合在同一个类中,对象之间具有相似性;不同类的对象之间是相异的。聚类分析把一个给定的数据对象集合分成不同的簇;聚类是一种无监督分类法:没有预先指定的类别;典型的应用作为一个独立的分析工具,用于了解数据的分布;作为其它算法的一个数据预处理步骤聚类的常规应用模式识别空间数据分析在GIS中,通过聚类发现特征空间来建立主题索引;在空间数据挖掘中,检测并解释空间中的簇;图象处
2、理经济学(尤其是市场研究方面)WWW文档分类分析WEB日志数据来发现相似的访问模式应用聚类分析的例子市场销售:帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;土地使用:在一个陆地观察数据库中标识那些土地使用相似的地区;保险:对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户;城市规划:根据类型、价格、地理位置等来划分不同类型的住宅;地震研究:根据地质断层的特点把已观察到的地震中心分成不同的类;什么是一个好的聚类方法?一个好的聚类方法要能产生高质量的聚类结果——簇,这些簇要具备以下两个特点:高的簇内相似性低的簇间相似性数据挖掘对聚类分析的要求可伸缩性能
3、够处理不同类型的属性能发现任意形状的簇在决定输入参数的时候,尽量不需要特定的领域知识;能够处理噪声和异常对输入数据对象的顺序不敏感能处理高维数据能产生一个好的、能满足用户指定约束的聚类结果结果是可解释的、可理解的和可用的6.2数据类型表示数据的两种结构1)数据矩阵2)差异度矩阵聚类分析中的数据类型区间标度变量(Interval-scaledvariables):二元变量(Binaryvariables):分类型,序数型和比例型变量(Nominal,ordinal,andratiovariables):混合类型变量(Variablesofmixedtypes):区间标度变量为了避免值域大
4、的单位对聚类结果的影响也大,需要对区间标度度量进行标准化。数据标准化计算绝对偏差的平均值:其中计算标准度量值(z-score)使用绝对偏差的平均值比使用标准偏差更健壮计算对象之间的相异度通常使用距离来衡量两个对象之间的相异度。常用的距离度量方法有:明科斯基距离(Minkowskidistance):其中i=(xi1,xi2,…,xip)和j=(xj1,xj2,…,xjp)是两个p维的数据对象,q是一个正整数。当q=1时,d称为曼哈顿距离(Manhattandistance)对象间的相似度和相异度当q=2时,d就成为欧几里德距离:距离函数有如下特性:d(i,j)0d(i,i)=0d(i
5、,j)=d(j,i)d(i,j)d(i,k)+d(k,j)可以根据每个变量的重要性赋予一个权重二元变量只有两种状态:0或1二元变量的可能性表其中每个对象有p个变量,且p=a+b+c+dObjectiObjectj二元变量对称的如果一个二元变量的两个状态是同等价值的,具有相同的权重。即可以任取其中一种状态编码为1或者0。对于对称的二员变量,采用简单匹配系数来评价两个对象之间的相异度二元变量非对称的如果变量的两个状态不是同样重要的,则称该变量是不对称的。根据惯例,将比较重要通常也是出现概率比较小的状态编码为1,将另一种状态编码为0。对于非对称的二员变量,两个对象之间的相异度作为补充,采用
6、Jaccard系数来评价两种相似度二元变量的相异度计算实例:患者记录表gender是一个对称的二元变量其它的都是非对称的二元变量将值Y和P编码为1,值N编码为0,则相异度计算(只基于非对称二元变量)为:分类变量(NominalVariables)分类变量是二元变量的推广,它可以具有多于两个的状态,比如变量map_color可以有red,yellow,blue,green四种状态。有两种计算相异度的方法:方法1:简单匹配方法M是匹配的数目,p是全部变量的数目方法2:使用二元变量为每一个状态创建一个新的二元变量,可以用非对称的二元变量来编码标称变量。序数型变量一个序数型变量可以是离散的也可
7、以是连续的离散的序数型变量类似于标称变量,除了它的M个状态是以有意义的序列排序的,比如职称连续的序数型变量类似于区间标度变量,但是它没有单位,值的相对顺序是必要的,而其实际大小并不重要。序数型变量相异度的计算与区间标度变量的计算方法相类似将xif用它对应的秩代替将每个变量的值域映射到[0.0,1.0]上,使得每个变量都有相同的权重。这通过用zif来替代rif来实现用前面所述的区间标度变量的任一种距离计算方法来计算比例标度型变量(Ratio-sc