欢迎来到天天文库
浏览记录
ID:52137166
大小:125.00 KB
页数:8页
时间:2020-03-23
《聚类分析学习总结.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、聚类分析学习体会聚类分析是多元统计分析中研究“物以类聚”的一种方法,用于对事物的类别尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。聚类分析主要目的是研究事物的分类,而不同于判别分析。在判别分析中必须事先知道各种判别的类型和数目,并H要有一批来自各判别类型的样本,才能建立判别函数来对未知属性的样本进行判别和归类。若对一批样品划分的类型和分类的数目事先并不知道,这时对数据的分类就需借助聚类分析方法来解决。聚类分析把分类对象按一定规则分成组或类,这些组或类不是事先给定的而是根据数据特征而定的。在一个给定的类
2、里的这些对象在某种意义上倾向于彼此相似,而在不同类里的这些对象倾向于不相似。1.聚类统计量在对样品(变量)进行分类时,样品(变量)之间的相似性是怎么度量?通常有三种相似性度量一一距离、匹配系数和相似系数。距离和匹配系数常用来度量样品之间的相似性,相似系数常用来变量之间的相似性。样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。通常变量按取值的不同可以分为:1•定量变量:变量用连续的量来表示,例如长度、重量、速度、人口等,乂称为间隔尺度变量。2•定性变量:并不是数量上有变化,而只是性质上
3、有差异。定性变量还可以再分为:⑴有序尺度变量:变量不是用明确的数量表示,而是用等级表示,例如文化程度分为文盲、小学、中学、大学等。⑵名义尺度变量:变量用一些类表示,这些类之间既无等级关系,也无数量关系,例如职业分为工人、教师、干部、农民等。下面主要讨论具有定量变量的样品聚类分析,描述样品间的亲疏程度最常用的是距离。1.1>距离数据矩阵设切为第,个样品的第/个指标,数据矩阵如下表在上表中,每个样品有0个变量,故每个样品都可以看成是R"中的一个点,/7个样品就是附中的,2个点。在肥中需定义某种距离,第i个样品与第丿•个样品之
4、间的距离记为£•,在聚类过程中,相距较近的点倾向于归为一类,相距较远的点应归屈不同的类。所定义的距离d“一般应满足如下四个条件:⑴九.>0,对一切ij;且〃(兀宀)二0当且仅当兀=Xj⑵djj=dji,对一切i,j;(3)di}5、心-兀』rJt=l这里q为某一自然数。闵科夫斯基距离有以下三种特殊形式:1)当厂1时,给(1)=£6、心-切称为绝对值距离,常被形彖地称为“城市*=1街7、区”距离;p12)当g=2时,J..(2)=[£应-®J]2,称为欧氏距离,这是聚类分析中最妇1常用的距离;3)当q=8时,di}(oo)=maxxik-xjk,称为切比雪夫距离。叭•(§)在实际中用得很多,但是有一些缺点,一方面距离的大小与各指标的观测单位有关,另一方而它没有考虑指标间的相关性。当各指标的测量值相差悬殊时,应先对数据标准化,然后用标准化后的数据计算距离;最常用的标准化处理是:X・・—Xi令_1川1_其中©=丄乞七为第J个变量的样本均值,£厂—工(七—R)2为第j个/=!斤一1/=!变量的样本方差。(28、)兰氏(Lance和Williams)距离当x{j>0(i=12…/;丿・=12…,P)时,第i个样品与第丿•个样品间的兰氏距离为这个距离耳各变量的单位无关,但没有考虑指标间的和关性。⑶马氏距离(Mahalanobis)距离第‘个样品与第丿个样品间的马氏距离为(M)=ja—x“s“(兀一厂)其中£=(旳1,兀・2,•••,£“)',Xj=gi,・勺2,…),S为样品协方差矩阵。使用马氏距离的好处是考虑到了各变量之间的相关性,并且与各变量的单位无关;但马氏距离有一个很大的缺陷,就是S难确定。由于聚类是一个动态过程,故S随聚9、类过程而变化,那么同样的两个样品之间的距离可能也会随之而变化,这不符和聚类的基本要求。因此,在实际聚类分析中,马氏距离不是理想的距离。⑷斜交空间距离第i个样品与第丿个样品间的斜交空间距离定义为IpP丄—xjk)(xz/—xh)rkl]~PA=1/=1其中g是变量忑与变量刃间的相关系数。当p个变量互不相关时,珀=炷,P即斜交空间距离退化为欧氏距离(除相差一个常数倍外)。以上儿种距离的定义均要求样品的变量是定量变量,如果使用的是定性变量,则有相应的定义距离的方法。定性变量的距离下例只是对名义尺度变量的一种距离定义。例1某高校10、举办一个培训班,从学员的资料中得到这样6个变量:性别(旺)取值为男和女;外语语种(勺)取值为英、日和俄;专业(兀3)取值为统计、会计和金融;职业(兀)取值为教师和非教师;居住处(兀5)取值为校内和校外;学历(忑)取值为本科和本科以下。现有两名学员:山二(男,英,统计,非教师,校外,本科)"兀2=(女,英,金融,教师,
5、心-兀』rJt=l这里q为某一自然数。闵科夫斯基距离有以下三种特殊形式:1)当厂1时,给(1)=£
6、心-切称为绝对值距离,常被形彖地称为“城市*=1街
7、区”距离;p12)当g=2时,J..(2)=[£应-®J]2,称为欧氏距离,这是聚类分析中最妇1常用的距离;3)当q=8时,di}(oo)=maxxik-xjk,称为切比雪夫距离。叭•(§)在实际中用得很多,但是有一些缺点,一方面距离的大小与各指标的观测单位有关,另一方而它没有考虑指标间的相关性。当各指标的测量值相差悬殊时,应先对数据标准化,然后用标准化后的数据计算距离;最常用的标准化处理是:X・・—Xi令_1川1_其中©=丄乞七为第J个变量的样本均值,£厂—工(七—R)2为第j个/=!斤一1/=!变量的样本方差。(2
8、)兰氏(Lance和Williams)距离当x{j>0(i=12…/;丿・=12…,P)时,第i个样品与第丿•个样品间的兰氏距离为这个距离耳各变量的单位无关,但没有考虑指标间的和关性。⑶马氏距离(Mahalanobis)距离第‘个样品与第丿个样品间的马氏距离为(M)=ja—x“s“(兀一厂)其中£=(旳1,兀・2,•••,£“)',Xj=gi,・勺2,…),S为样品协方差矩阵。使用马氏距离的好处是考虑到了各变量之间的相关性,并且与各变量的单位无关;但马氏距离有一个很大的缺陷,就是S难确定。由于聚类是一个动态过程,故S随聚
9、类过程而变化,那么同样的两个样品之间的距离可能也会随之而变化,这不符和聚类的基本要求。因此,在实际聚类分析中,马氏距离不是理想的距离。⑷斜交空间距离第i个样品与第丿个样品间的斜交空间距离定义为IpP丄—xjk)(xz/—xh)rkl]~PA=1/=1其中g是变量忑与变量刃间的相关系数。当p个变量互不相关时,珀=炷,P即斜交空间距离退化为欧氏距离(除相差一个常数倍外)。以上儿种距离的定义均要求样品的变量是定量变量,如果使用的是定性变量,则有相应的定义距离的方法。定性变量的距离下例只是对名义尺度变量的一种距离定义。例1某高校
10、举办一个培训班,从学员的资料中得到这样6个变量:性别(旺)取值为男和女;外语语种(勺)取值为英、日和俄;专业(兀3)取值为统计、会计和金融;职业(兀)取值为教师和非教师;居住处(兀5)取值为校内和校外;学历(忑)取值为本科和本科以下。现有两名学员:山二(男,英,统计,非教师,校外,本科)"兀2=(女,英,金融,教师,
此文档下载收益归作者所有