多元统计分析ppt课件

多元统计分析ppt课件

ID:27593648

大小:3.05 MB

页数:76页

时间:2018-12-02

多元统计分析ppt课件_第1页
多元统计分析ppt课件_第2页
多元统计分析ppt课件_第3页
多元统计分析ppt课件_第4页
多元统计分析ppt课件_第5页
资源描述:

《多元统计分析ppt课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、聚类分析聚类分析方法是按样品(或变量)的数据特征,把相似的样品(或变量)倾向于分在同一类中,把不相似的样品(或变量)倾向于分在不同类中。聚类分析根据分类对象不同分为Q型和R型聚类分析。距离和相似系数相似性度量:距离和相似系数。距离常用来度量样品之间的相似性,相似系数常用来度量变量之间的相似性。样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。变量的测量尺度通常变量按测量尺度的不同可以分为间隔、有序和名义尺度变量三类。间隔尺度变量:变量用连续的量来表示,如长度、重量、速度、温度等。有序尺度变量:变量度量时不用明确的数量表示,而是用

2、等级来表示,如某产品分为一等品、二等品、三等品等有次序关系。名义尺度变量:变量用一些类表示,这些类之间既无等级关系也无数量关系,如性别、职业、产品的型号等。距离有多种定义方法,在聚类分析中最常用的是欧氏距离,即有当各变量的单位不同或测量值范围相差很大时,应先对各变量的数据作标准化处理。最常用的标准化处理是,令其中和分别为第个变量的样本均值和样本方差。相似系数聚类分析方法不仅用来对样品进行分类,而且可用来对变量进行分类,在对变量进行分类时,常常采用相似系数来度量变量之间的相似性。变量之间的这种相似性度量,在一些应用中要看相似系数的大小,而在另一些应用中要看相似系数绝

3、对值的大小。相似系数(或其绝对值)越大,认为变量之间的相似性程度就越高;反之,则越低。聚类时,比较相似的变量倾向于归为一类,不太相似的变量归属不同的类。相似系数一般需满足的条件(1),当且仅当和是常数;(2),对一切;(3),对一切。最常用的两个相似系数系统聚类法系统聚类法是聚类分析诸方法中用得最多的一种。基本思想是:开始将个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。常用的系统聚类方法一、最短距离法二、最长距离法三、中间距离

4、法四、类平均法五、重心法六、离差平方和法(Ward方法)最短距离法定义类与类之间的距离为两类最近样品间的距离,即最短距离法的聚类步骤(1)规定样品之间的距离,计算个样品的距离矩阵,它是一个对称矩阵。(2)选择中的最小元素,设为,则将和合并成一个新类,记为,即(3)计算新类与任一类之间距离的递推公式为最短距离法的聚类步骤在中,和所在的行和列合并成一个新行新列,对应,该行列上的新距离值由上式求得,其余行列上的距离值不变,这样就得到新的距离矩阵,记作。(4)对重复上述对的两步得,如此下去直至所有元素合并成一类为止。如果某一步中最小的元素不止一个,则称此现象为结(tie)

5、,对应这些最小元素的类可以任选一对合并或同时合并。一般来说,只要聚类的样品数目不是太少,各种聚类方法所产生的聚类结果一般是不同的,甚至会有大的差异。单调性令是系统聚类法中第次并类时的距离,如果一种系统聚类法能满足,则称它具有单调性。这种单调性符合系统聚类法的思想,先合并较相似的类,后合并较疏远的类。最短距离法、最长距离法、可变法、类平均法、可变类平均法和离差平方和法都具有单调性,但中间距离法和重心法不具有单调性。类的个数如果能够分成若干个很分开的类,则类的个数就比较容易确定;反之,如果无论怎样分都很难分成明显分开的若干类,则类个数的确定就比较困难了。确定类个数的常

6、用方法有:1.给定一个阈值T。2.观测样品的散点图。3.使用统计量。包括:统计量,半偏统计量,伪统计量和伪统计量。动态聚类法动态聚类法的基本思想是,选择一批凝聚点或给出一个初始的分类,让样品按某种原则向凝聚点凝聚,对凝聚点进行不断的修改或迭代,直至分类比较合理或迭代稳定为止。类的个数k可以事先指定,也可以在聚类过程中确定。选择初始凝聚点(或给出初始分类)的一种简单方法是采用随机抽选(或随机分割)样品的方法。动态聚类法有许多种方法,我们只讨论一种比较流行的动态聚类法——k均值法。k均值法是由麦奎因(MacQueen,1967)提出并命名的一种算法。k均值法的基本步骤

7、(1)选择k个样品作为初始凝聚点,或者将所有样品分成k个初始类,然后将这k个类的重心(均值)作为初始凝聚点。(2)对除凝聚点之外的所有样品逐个归类,将每个样品归入凝聚点离它最近的那个类(通常采用欧氏距离),该类的凝聚点更新为这一类目前的均值,直至所有样品都归了类。(3)重复步骤(2),直至所有的样品都不能再分配为止。最终的聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。经验表明,聚类过程中的绝大多数重要变化均发生在第一次再分配中。主成分分析主成分分析(或称主分量分析,principalcomponentanalysis)由皮尔逊(Pearson,1901)首

8、先引入,后

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。