聚类分析距离漫谈

聚类分析距离漫谈

ID:46890656

大小:134.00 KB

页数:6页

时间:2019-11-28

聚类分析距离漫谈_第1页
聚类分析距离漫谈_第2页
聚类分析距离漫谈_第3页
聚类分析距离漫谈_第4页
聚类分析距离漫谈_第5页
资源描述:

《聚类分析距离漫谈》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、标准化与正交化是聚类分析的必选项杜子芳I摘要聚类分析是三大多元统计分析方法之一,在许多领域都冇广泛的应用,特别是在模式识别或无学习分类领域,发挥着不可替代的作用。除谱系聚类的ward方法外,聚类分析的关键依据是样品间距。样品间距完全脱胎于几何屮的距离概念,但样品间距在儿何距离三角可加性里所隐含的各变量量纲必须一致且必须正交的两个关键特性或许是有意或许是不经意地被模糊了。木文的结论是各变量量纲一致且正交应是聚类分析的强制要求,而主成分分析是正交化的最佳手段,应该成为聚类分析程序相关模块的缺省设置或唯一选项。聚类分析是三大多元统计分析方法之一,在许多领域

2、都有广泛的应用,特别是在模式识别或无学习分类领域,发挥着不可替代的作用。聚类分析不仅表现活跃,而且分支众多。首先有样品聚类与变量聚类Z分,其中样品聚类又有面向大样木量情形的快速聚类与而向样本量不大情形的常规聚类两个分支。对丁这其屮的常规聚类,还可细分为有序样品聚类与非有序样品聚类,而对于非有序样品聚类,有聚类类数由少而多的分解法与由多而少的归并法的区别。归并法最为常用,也称谱系聚类。聚类家族人丁兴旺,其共同的基因可以归纳为两个:一是“模型”限于处理数值型变量尤英是非离散变量;二是“模型”的基础除变量聚类少数场合外其余概为距离计算。不妨冋顾一下聚类分析

3、的过程与细节,容易知道无论是谱系聚类还是快速聚类,任何场合的距离计算不外乎三种:样品之间的距离、样品到类的距离以及类与类之间的距离。而这些计算的唯一依据是样品之间的距离,简称样品间距,只有谱系聚类的ward方法例外。距离首先是一个几何概念,其屮最为人熟悉的是二维和三维几何空间的欧几里德距离。在其后的发展中,距离在维数、幕次数等方面被推广彳了,距离被抽彖为满足下列性质的一个函数族:(1)非负性,(2)对称性,(3)三角可加性。值得提醒人们特别关注的是,三角可加性虽然是一•种特殊的可加性,但毕竟还是可加性,而可加性意味着几何距离中向量的各分量量纲必须一致

4、;至于可加性前而要加上“三角”做修饰,则意味着几何距离屮向量的各分量在笛卡尔坐标系里必须正交。这是儿何距离定义中所隐含的两个重要特性。样品间距完全脱胎于几何屮的距离概念,这是毋庸置疑的。但样品间距在几何距离隐含的上述两个关键特性上或许是被人们冇意或许是不经意地被模糊假如询问学过回归分析的学生,需要进行多重共线性的诊断吗?回答“是的”几乎会百分Z百。而假如询问学过聚类分析的学生,聚类分析需要进行量纲不一致和变量不正交的诊断吗?冋答是的恐属风毛麟角。还有一个明证是聚类分析程序中既无量纲'中国人民大学统计学院教授P2最典型的代表是明氏距离:闵斯科斯基(Mi

5、nkowski)距离r=l3虽然在冇些多元统计教科书里也提及这两点,但一來多以某种距离定义如明氏距离存在这样的缺陷的方式提到,二來并不断言必须克服这一缺陷,因而捉供一套标准的处理程序,成为聚类分析的必选设宣。这个事实木身似乎并不令人意外。对数学家而言,分量正交是当然的,何必刻意要捉?对生物、医学、统计学等领域的专家而言,要么没冇意识到,要么认为距离计算需要的前提不满足十系不大。一致和变量止交化的独立模块,在内容相关的模块里,缺省设置也不是能使量纲一致和变量正交化的手段选项。被人们有意或许是不经意地被模糊的两个关键特性,一是儿何距离中向量的各分量量纲是

6、一致的,故各分量的量值是可加的,可样品距离屮各个变量许多场合量纲并非一致。多元统计分析中关于消除量纲的方法是比较丰富的,主要冇标准化变换、极差标准化变换和极差规格化变换三种。但一者人们往往将这些方法与中心化变换和对数变换Z类变换方法并列,且对三种消除量纲影响的方法孰优孰劣只字不提,其结果是量纲一致化的必要性被严重地淡化了,以致聚类分析里完全缺少判别分析那种将马氏距离作为距离判别唯一选项的明快。何况,若记两个〃维样品兀二比,…宀丫和"®,…,yjz间的欧氏距离为:〃(兀,刃二-歹

7、)2+(兀2-歹2)2+・・・+(卩一儿F=J(X_),)©_『)而相同

8、的两个P维样品之间的统计距离或马氏距离为:d(兀,y)=yl(x-yS~l(x-y)其屮S为样本协方差矩阵,则正如RichardA.Johnson和DeanW.Wichern所说"但是,没有关于不同类的先验知识。这些样本量就无法计算餐由于这个原因,在聚类问题屮更倾向于采用欧氏距离”5。也就是说,由于“类”在聚类开始的阶段尚不存在,类内的方差S无从谈起,所以欧氏距离就替代了似乎更合理的统计距离或马氏距被人们冇意或许是不经意地被模糊两个关键特性Z二,是几何距离屮向量的各分量在笛卡尔坐标系里都是正交的,而样品距离中各变量间往往存在一定程度的相关,很多场合

9、不能满足正交条件,伟大的费歇尔感觉到了这一点,在与聚类分析关联紧密的姊妹方法判别分析中提出了著名的费歇尔变换

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。