算法大全第29章_多元分析.pdf

算法大全第29章_多元分析.pdf

ID:53010236

大小:575.80 KB

页数:88页

时间:2020-04-11

算法大全第29章_多元分析.pdf_第1页
算法大全第29章_多元分析.pdf_第2页
算法大全第29章_多元分析.pdf_第3页
算法大全第29章_多元分析.pdf_第4页
算法大全第29章_多元分析.pdf_第5页
资源描述:

《算法大全第29章_多元分析.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第二十九章多元分析多元分析(multivariateanalyses)是多变量的统计分析方法,是数理统计中应用广泛的一个重要分支,其内容庞杂,视角独特,方法多样,深受工程技术人员的青睐和广泛使用,并在使用中不断完善和创新。由于变量的相关性,不能简单地把每个变量的结果进行汇总,这是多变量统计分析的基本出发点。§1聚类分析将认识对象进行分类是人类认识世界的一种重要方法,比如有关世界的时间进程的研究,就形成了历史学,也有关世界空间地域的研究,则形成了地理学。又如在生物学中,为了研究生物的演变,需要对生物进行

2、分类,生物学家根据各种生物的特征,将它们归属于不同的界、门、纲、目、科、属、种之中。事实上,分门别类地对事物进行研究,要远比在一个混杂多变的集合中更清晰、明了和细致,这是因为同一类事物会具有更多的近似特性。在企业的经营管理中,为了确定其目标市场,首先要进行市场细分。因为无论一个企业多么庞大和成功,它也无法满足整个市场的各种需求。而市场细分,可以帮助企业找到适合自己特色,并使企业具有竞争力的分市场,将其作为自己的重点开发目标。通常,人们可以凭经验和专业知识来实现分类。而聚类分析(clusteranaly

3、ses)作为一种定量方法,将从数据分析的角度,给出一个更准确、细致的分类工具。1.1相似性度量1.1.1样本的相似性度量要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的相似程度。一个事物常常需要用多个变量来刻画。如果对于一群有待分类的样本点需用p个p变量描述,则每个样本点可以看成是R空间中的一个点。因此,很自然地想到可以用距离来度量样本点间的相似程度。+记Ω是样本点集,距离d(⋅,⋅)是Ω×Ω→R的一个函数,满足条件:1)d(x,y)≥0,x,y∈Ω;2)d(x,y)=0当且仅当x=

4、y;3)d(x,y)=d(y,x),x,y∈Ω;4)d(x,y)≤d(x,z)+d(x,y),x,y,z∈Ω。这一距离的定义是我们所熟知的,它满足正定性,对称性和三角不等式。在聚类分析中,对于定量变量,最常用的是Minkowski距离-443-1⎡pq⎤qdq(x,y)=⎢∑xk−yk⎥,q>0⎣k=1⎦当q=1,2或q→+∞时,则分别得到1)绝对值距离qd1(x,y)=∑xk−yk,(1)k=12)欧氏距离1⎡p⎤22d2(x,y)=⎢∑xk−yk⎥,(2)⎣k=1⎦3)Chebyshev距离d(x

5、,y)=maxx−y。(3)∞kk1≤k≤p在Minkowski距离中,最常用的是欧氏距离,它的主要优点是当坐标轴进行正交旋转时,欧氏距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换后样本点间的距离和变换前完全相同。值得注意的是在采用Minkowski距离时,一定要采用相同量纲的变量。如果变量的量纲不同,测量值变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计算距离。在采用Minkowski距离时,还应尽可能地避免变量的多重相关性(multicollinearity)。多重相关

6、性所造成的信息重叠,会片面强调某些变量的重要性。由于Minkowski距离的这些缺点,一种改进的距离就是马氏距离,定义如下4)马氏(Mahalanobis)距离T−1d(x,y)=(x−y)Σ(x−y)(4)其中x,y为来自p维总体Z的样本观测值,Σ为Z的协方差矩阵,实际中Σ往往是不知道的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量纲的影响。此外,还可采用样本相关系数、夹角余弦和其它关联性度量作为相似性度量。近年来随着数据挖掘研究的深入,这方面的新方法层出不穷。1.1.2类与

7、类间的相似性度量如果有两个样本类G和G,我们可以用下面的一系列方法度量它们间的距离:121)最短距离法(nearestneighbororsinglelinkagemethod)-444-D(G,G)=min{d(x,y)},(5)12ijxi∈G1yj∈G2它的直观意义为两个类中最近两点间的距离。2)最长距离法(farthestneighbororcompletelinkagemethod)D(G,G)=max{d(x,y)},(6)12ijxi∈G1yj∈G2它的直观意义为两个类中最远两点间的距离

8、。3)重心法(centroidmethod)D(G,G)=d(x,y),(7)12其中x,y分别为G,G的重心。124)类平均法(groupaveragemethod)1D(G1,G2)=∑∑d(xi,xj),(8)n1n2xGij∈∈G12x它等于G,G中两两样本点距离的平均,式中n,n分别为G,G中的样本点个数。1212125)离差平方和法(sumofsquaresmethod)若记TTD1=∑(xi−x1)(xi−x1),D2=∑(xj−x2)(x

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。