欢迎来到天天文库
浏览记录
ID:14502976
大小:1.34 MB
页数:82页
时间:2018-07-29
《集群分析 - 明道大学-----》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第十章集群分析第一節集群分析原理第二節SPSS的分層集群分析法第三節SPSS的K-Means集群分析法第四節SPSS的TwoStep集群分析法第五節集群分析範例1學習目標認識集群分析的基本概念與目的。瞭解集群分析的演算步驟。探討相似性的衡量方法與公式。理解層次集群法中的群與群間距離計算的各種方法。認識集群結果的解釋、命名、驗證和後續分析。認識SPSS的層次集群法程序、介面操作與結果分析。認識SPSS的K-Means集群法程序、介面操作與結果分析。認識SPSS的TwoStep集群法程序、介面操作與結果分析。認
2、識SPSS的各種因素分析應用實例。瞭解集群程序的集群結果如何進行各種後續分析。2第一節集群分析原理一、集群分析的基本概念二、集群分析的主要步驟三、相似衡量四、集群方法五、集群結果的解釋和驗證六、SPSS的Cluster分析程序3集群分析原理集群分析(ClusterAnalysis)是將資料檔中的觀測值或變數加以歸類在各個集群內,也就是把沒有分群的個體按相似程度歸於同一群。集群分析可以作資料簡化。集群分析分群的方法有兩大形式,分層法(Hierarchical)與非分層法(Non-hierarchical),結
3、合兩種方法的集群分析則稱為兩階段法(TwoStep)。分層法以個體間某項量測的距離或相似性將個體連結,但是事前並不知道分群的個數,通常可表示成樹型圖。非分層法則是於事前依據其他研究或主觀認定,決定要將群體分成幾群,其中以K平均值法(K-Means)為代表。4圖10-1SPSS的Cluster程序5一、集群分析的基本概念集群分析使在同一集群內的事物具有高度的同質性(homogeneity),而不同集群的事物具有高度的異質性(heterogeneity)。亦即將樣本分成幾群互相沒有交集的群組。因素分析是將同質性
4、高的變數(variables)集成一群;而集群分析則是將變數相似性高的觀察值(cases)集成一群。集群分析的大部分應用都屬於探索性研究,最終結果是產生研究對象的分群。6二、集群分析的主要步驟(1/2)集群分析至少都應該包括以下四個步驟:第一步:根據研究的目的選擇合適的分群變數第二步:計算相似性衡量第三步:選定集群方法進行集群第四步:對結果進行解釋和驗證分群變數應該具有以下特點:1.和集群分析的目標密切相關2.反映了要分群對象的特徵3.在不同研究對象上的數值具有明顯差異4.變數之間不應該有高度相關7集群分析
5、的主要步驟(2/2)選擇分群變數時要注意克服「加入盡可能多的變數」這種錯誤觀念。此外所選擇的變數之間不應該高度相關。選定了分群變數,下一步就是計算研究對象間的相似性。相似性反映了研究對象間的親疏程度。計算出相似性矩陣之後,下一步就是要對研究對象進行分群。這時主要涉及到兩個問題:一是選定集群方法;二是確定形成的分群數。得到集群結果後,最後一步還應對結果進行驗證和解釋。85.柴比雪夫(Chebychev)距離6.區塊(block)距離:7.明可夫斯基(Minkowski)距離8.自訂式(Customized)距
6、離1.歐基里得直線距離(Euclideandistance)2.歐基里得直線距離平方(SquaredEuclideandistance)3.餘弦(Cosine):4.Pearson相關:三、相似衡量(Measure)很多種相似的衡量方法,都從不同的角度衡量了研究對象的相似性,其主要分為以下二類:1.距離衡量;2.關聯衡量。距離衡量-計量資料:9關聯衡量-計質資料1.卡方值測距(Chi-squaremeasure):2.Phi平方值測距(Phi-squaremeasure):3.二進位資料(Binary):有
7、沒有有ab沒有cdCase1Case210四、集群方法:層次集群法層次集群法又可分為兩種層次集群法:凝聚法(AgglomerativeMethod,或稱聚集法)和分離法(DivisiveMethod,或稱分解法)。凝聚法首先是把每個觀察值各自看成一群,先把距離最近的兩群合併。直到合併成一大群為止。分解法和聚集法的過程相反,每一步增加一群,直到每個觀察值都自成一群為止。目前SPSS採用凝聚法,故層次聚集法是集群分析中應用最廣泛的集群方法。層次集群法的集群過程可以用一個樹狀圖(Dendogram)表示出來。11
8、圖10-2群與群距離計算方法比較的示意圖12圖10-3以身高與體重進行最短距離法集群所得到的樹狀圖最短距離法(NearestNeighbor)或稱單一連結法(SingleLinkage):最短距離法主要的缺點為「鏈接聚合」缺陷,容易形成一個比較大的組。大部分的觀察值皆被聚集在同一組,故最短距離法在研究上很少被使用。13圖10-4以身高與體重進行最遠距離法集群所得到的樹狀圖最遠距離法(FurthestNeigh
此文档下载收益归作者所有