应用多元分析聚类分析作业

应用多元分析聚类分析作业

ID:30892061

大小:652.14 KB

页数:12页

时间:2019-01-04

应用多元分析聚类分析作业_第1页
应用多元分析聚类分析作业_第2页
应用多元分析聚类分析作业_第3页
应用多元分析聚类分析作业_第4页
应用多元分析聚类分析作业_第5页
资源描述:

《应用多元分析聚类分析作业》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、应用多元分析——聚类分析5.1解:判别分析是根据一定的判別准则,判定一个样本归属于哪-•类,用具体的数学语言来表达就是,设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)G,G2>・・・・・・,G*屮的某一类,且它们的分布函数分别为Fi(x),F2(x),……,5(x)通过找出一个最优的划分,便得不同类別的样本尽可能地区別开,并对测得同样P项指标(变量)数据的-个新样本,能判别该样本加于哪个总体。聚类分析是分析如何对样晶(或变量)进行量化分类的问题。而聚类分析是指,在聚类之前,我们并不知道判别标准,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体,即

2、进行量化分类。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。5.3解:対样品进行聚类分析吋,用距离来测定样品Z间的相似程度。因为我们把n个样本看作P维空间的门个点,点之间的距离即可代表样品间的相似度,将距离近的归为一类,距离较远的点归为不同类。常用的距离为:(一)闵可夫斯基距离:血(9)=(£

3、X«・X°严k=q取不同值,分为(1)绝对距离仏=1)九(1)=常

4、x壮-Xjk

5、*=1(2)欧氏距离(q=2)P2

6、量的相似性进行度量的时候,因为多元数据中的变量表现为向量的形式,在儿何上可以用多维空间的一个有向线段表示,相对于数量的大小,我们更多地耍了解变量的变化趋势或变化方向,因此用相关性进行衡蜃。将变罐看作P维空间的向罐,一般用:(一)夹角余弦J(二)相关系数ag・X)®-片J5.5解:相同点:K—均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。不同点:系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。5.7解:(1)最短距离法采用绝对值距离,计算样品间距离阵D(0)G1G2G3G4G5G6Gi0g210G3210G45430G587630g6109852

7、0由上表易知D⑹中最小元素是D12=D23=1于是将Gi,G2,G3聚为一类,记为G7计算距离阵D(1)G7G4G5G6G70g430g5630g68520D(1)中最小元素是D56=2于是将G5,G&聚为一类,记为G&最计算样本距离阵D(2)g7g4g8g70g430g8630D⑵中最小元素是D47=D48=3于是将G4,G7,Gg聚为一类,记为Gg因此,GiG3123(2)用重心法进行聚类分析Gi0g210g3410g4251690G564493690g610081642540(0)G1G2G3G4G5G6易知D2(0)中最小元素是D2]2=D223=1于是将G-G2,G3聚为一类,记为G

8、7计算样品间平方距离阵D2计算距离阵D2(1)g7g4g5g6G70g4160g54990g6812540D2(1)中最小元素是D256=4于是将G5,G&聚为一类,记为G&计算样本距离阵D2G7G4G8g70g4160g864160D2⑵屮最小元素是D?47=D248=16于是将G4,G7,Gg聚为一类,记为G9因此,G3G4G』Ge14165.8解:令食品支出为XI,衣着支出为X2,燃料支出为X3,住房支出为X4,交通和通讯支出为X5,娱乐教育文化支出为X6。利用系统聚类法(组间平均连接距离)进行聚类:AgglomerationScheduleStageClusterCombinedCoe

9、fficientsStageClusterFirstAppearsNextStageCluster1Cluster2Cluster1Cluster2131649.1350052131456.4260033121396.202028458191.473008534208.9411096210240.216007726448.99960128512550.06043119315785.703501310111958.28200141157994.469801212251063.6987111313231785.9251291414124845.574101315151916849.4971400C

10、ASELabelNum10一+15一+20-+25_+RescaledDistanceClusterCombine3164152106131412587111用组间平均数连接距离将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。利用K-均值法进行聚类,也将所冇地区分为三类:ClusterMembershipCaseNumber省市ClusterDistan

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。