资源描述:
《应用多元分析聚类分析作业》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、应用多元分析——聚类分析5.1解:判别分析是根据一定的判別准则,判定一个样本归属于哪-•类,用具体的数学语言来表达就是,设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)G,G2>・・・・・・,G*屮的某一类,且它们的分布函数分别为Fi(x),F2(x),……,5(x)通过找出一个最优的划分,便得不同类別的样本尽可能地区別开,并对测得同样P项指标(变量)数据的-个新样本,能判别该样本加于哪个总体。聚类分析是分析如何对样晶(或变量)进行量化分类的问题。而聚类分析是指,在聚类之前,我们并不知道判别标准,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体,即
2、进行量化分类。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。5.3解:対样品进行聚类分析吋,用距离来测定样品Z间的相似程度。因为我们把n个样本看作P维空间的门个点,点之间的距离即可代表样品间的相似度,将距离近的归为一类,距离较远的点归为不同类。常用的距离为:(一)闵可夫斯基距离:血(9)=(£
3、X«・X°严k=q取不同值,分为(1)绝对距离仏=1)九(1)=常
4、x壮-Xjk
5、*=1(2)欧氏距离(q=2)P22)=(aX/xjk)1/2*=1(3)切比雪夫距离(q=U)maxi锹p(二)马氏距离&・旳)乞&・Xj)口兰氏距离心卅对变
6、量的相似性进行度量的时候,因为多元数据中的变量表现为向量的形式,在儿何上可以用多维空间的一个有向线段表示,相对于数量的大小,我们更多地耍了解变量的变化趋势或变化方向,因此用相关性进行衡蜃。将变罐看作P维空间的向罐,一般用:(一)夹角余弦J(二)相关系数ag・X)®-片J5.5解:相同点:K—均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。不同点:系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。5.7解:(1)最短距离法采用绝对值距离,计算样品间距离阵D(0)G1G2G3G4G5G6Gi0g210G3210G45430G587630g6109852
7、0由上表易知D⑹中最小元素是D12=D23=1于是将Gi,G2,G3聚为一类,记为G7计算距离阵D(1)G7G4G5G6G70g430g5630g68520D(1)中最小元素是D56=2于是将G5,G&聚为一类,记为G&最计算样本距离阵D(2)g7g4g8g70g430g8630D⑵中最小元素是D47=D48=3于是将G4,G7,Gg聚为一类,记为Gg因此,GiG3123(2)用重心法进行聚类分析Gi0g210g3410g4251690G564493690g610081642540(0)G1G2G3G4G5G6易知D2(0)中最小元素是D2]2=D223=1于是将G-G2,G3聚为一类,记为G
8、7计算样品间平方距离阵D2计算距离阵D2(1)g7g4g5g6G70g4160g54990g6812540D2(1)中最小元素是D256=4于是将G5,G&聚为一类,记为G&计算样本距离阵D2G7G4G8g70g4160g864160D2⑵屮最小元素是D?47=D248=16于是将G4,G7,Gg聚为一类,记为G9因此,G3G4G』Ge14165.8解:令食品支出为XI,衣着支出为X2,燃料支出为X3,住房支出为X4,交通和通讯支出为X5,娱乐教育文化支出为X6。利用系统聚类法(组间平均连接距离)进行聚类:AgglomerationScheduleStageClusterCombinedCoe
9、fficientsStageClusterFirstAppearsNextStageCluster1Cluster2Cluster1Cluster2131649.1350052131456.4260033121396.202028458191.473008534208.9411096210240.216007726448.99960128512550.06043119315785.703501310111958.28200141157994.469801212251063.6987111313231785.9251291414124845.574101315151916849.4971400C
10、ASELabelNum10一+15一+20-+25_+RescaledDistanceClusterCombine3164152106131412587111用组间平均数连接距离将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。利用K-均值法进行聚类,也将所冇地区分为三类:ClusterMembershipCaseNumber省市ClusterDistan