欢迎来到天天文库
浏览记录
ID:51267449
大小:1.13 MB
页数:52页
时间:2020-03-20
《量化研究与统计分析—集群分析.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库。
1、集群分析Clusteranalysis謝寶煖2006年5月27日量化研究與統計分析15位學生的身高和體重集群分析的基本概念將性質相近的現象歸為一類,以便在大量複雜的特徵歸類後,找出其所存在的規律性,如經濟現象是定量研究分類問題的一種多元統計方法找出同一類中的個體有較大的相似性之間相似度的統計量,以此為依據,採用某種集群方法(clustermethod),將所有樣本(或變數)分別集群到不同的類中Highinternal(within-cluster)homogeneityHighexternal(between-cluster)heterogeneity類內同質類間
2、異質距離和相似係數研究變數間親疏程度的指標有兩個距離指兩個事物距離多遠的測量,通常將每一個樣本看成m維(變數的個數)空間中的一個點,在這m維空間定義點與點之間距離,距離較近的點歸為同一類,距離較遠的點歸入不同的類。相似係數指兩個事物距離多近的測量,性質越近的樣本,它們之間的相似係數越接近於1(或-1),而彼此無關的樣本,它們之間的相似係數越接近於零。在進行集群處理時,將比較相似的樣本歸為一類,不怎麼相似的樣本歸為不同的類。距離與相似係數計算公式的選擇,與資料特徵、測量尺度和集群方法有關。集群分析的分類對象Q型集群也叫樣本(case)集群,是針對樣本進行分類處理。方法
3、是根據樣本有關變數的特徵,將特徵相似的樣本歸為一類,例如在股市模組分析中,根據上市公司的每股收益、每股淨資產、股東權益率、淨資產收益率、淨利潤等五個指標,將股票分為不同的類型,如指標股、一般股等。R型集群也叫變數(variable)集群,是以變數為單位進行集群。分層集群分析HierarchicalClusterAnalysis也叫系統集群分析,是集群分析中應用最廣泛的一種方法。集群過程:把參與集群的樣本(或變數)各視為一類,然後根據兩類之間的距離或相似度逐步合併,直到所有樣本(或變數)合併為一個大類為止。分層集群分析可用於樣本集群,也可用於變數集群分析步驟選擇分析變
4、數資料標準化選擇距離或相似係數的計算公式,計算所有樣本或變數兩兩間的距離或相似係數,產生距離矩陣或相似矩陣。選擇集群方法,將距離最近的兩個樣本合併為一類。常用集群方法有:最短距離法、最長距離法、重心法、類平均法、離差平方合法等。分類個數大於1,則繼續前兩個步驟,直到所有樣本歸為一類為止輸出集群結果和系統集群圖,包括樹型圖和冰柱圖。根據研究對象的背景知識,按某種分類標準或分類原則,得出最終的分類結果。分層集群分析分析>分類>階層集群分析法分層集群分析例:研究各種飲料在市場消費的分配規律,共抽取了6個縣市消費的5種飲料有關的指標資料,請確定各種飲料的消費類型。Clust
5、er1CaseCluster選擇集群方法:群間連結(between-grouplinkage)距離測量採區間(Interval)的SquaredEuclideanDistance選擇輸出統計量:集群凝聚過程相似性矩陣各集群組員:由3到6選擇輸出集群圖:樹狀圖冰柱圖方向:垂直集群1=集群2=0,表示兩個樣本合併為一類/組集群1或集群2中,有一個為0,表示樣本與類的合併1和4合併為一類,6獨立為一類集群的順序集群1和集群2,都不為0,表示類與類的合併。集群1是1、集群2是3集群共分5階段。第一階段首先合併距離最近的樣本3和5,形成G1;下一階段(最右一欄)為4,故接續看
6、在第4階段中,G1和樣本3形成複集群,因此在「先出現的階段集群」中,集群為3和1。第二階段,合併樣本1和4,形成G2,因為下一階段是3,所在第3階段中,G2和1號樣本形成複集群,且「先出現的階段集群」中,集群1=2.、、、係數隨著集群的進行逐漸增大,開始增加得慢,後面增加快,表示集群開始時類間的差異小,結束時類間的差異大。先出現的階段集群第一次出現複集群的階段集群1=集群2=0,表示兩個樣本合併集群1或集群2中,有一個為0,表示樣本與類的合併集群1和集群2,都不為0,表示類與類的合併集群1放3、集群2放5,但因集群1和集群2的先出現的階段集群都是0,表示集群1和集群
7、2應合併為一類,所以群I是3和5。群I:3,5下一階段是4,所以看階段4。集群1放1,集群2放3,且先出現集群都不為0,表示1要放在一個集群,3要和在另一個集群;但是先出現的階段集群,集群1已經有3了,所以3是集群1(根據階段1集群1現有3和5),集群2要放1。群II:1群I:3,5下一階段是5,所以看階段5。集群1放1,集群2放6,且先出現集群1為4,表示1要和4放在一個集群;集群2的先出現集群為0,表示集群2的6要自己歸在一個集群中。集群1(根據階段4集群1現有3和5),集群2要放1。群II:1,4群III:6群I:3,5還有階段2和階段3還沒有檢視。階段2
此文档下载收益归作者所有