资源描述:
《资料探勘方式》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第14章:資料探勘方式k-Means族群推算法k-近鄰法決策樹關聯法神經網路系統本章學習重點族群推算法的目的是將資料歸類為不同的族群,而k為族群的數目。k-Means族群推算法的步驟如下:1.決定要找出多少個族群。換句話說,決定k值。2.隨意選出k個資料來當做這k個族群的中心點。14-1k-Means族群推算法k-Means族群推算法的步驟(續):3.由這k個資料點為起頭,建立出首輪的k族群。在這個時候,每一筆資料都暫時屬於某一個族群。4.找出每一個族群新的中心點。5.重複步驟3及步驟4,直到終止條件成立。k-Means族群推算法最常被用到的終止條件有兩
2、種:每個族群的中心點不再改變。某種收斂標準已經達到。一種常見的收斂標準是SumofSquaredErrors(SSE):代表在族群i中的每一個資料點,是族群i的中心點,而代表每一個資料點和它所屬族群中心點的距離。k-Means族群推算法SSE=k-Means族群推算法-範例a(1,3)b(2,5)c(3,5)d(1,6)e(4,1)f(5,2)g(6,2)h(6,3)i(2,2)9個點分成3群k-Means族群推算法-範例-續資料點與m1的距離與m2的距離與m3的距離族群a0.002.242.83族群1b2.240.001.00族群2c2.831.000
3、.00族群3d3.001.412.24族群2e3.614.474.12族群1f4.124.243.61族群3g5.105.004.24族群3h5.004.473.61族群3i1.413.003.16族群1步驟1:k=3步驟2:隨意選出3個資料來當作這3個族群的中心點步驟3:由這3個資料點為起點,建立出首輪的3個族群k-Means族群推算法-範例-續步驟4:找出每一個族群新的中心點族群1={(1+4+2)/3,(3+1+2)/3}=(2.33,2)族群2={(2+1)/2,(5+6)/2}=(1.5,5.5)族群3={(3+5+6+6)/4,(5+2+2+
4、3)/4}=(5,3)族群1族群2族群3k-Means族群推算法-範例-續資料點與m1的距離與m2的距離與m3的距離族群a1.662.554.00族群1b3.020.713.61族群2c3.071.582.83族群2d4.220.715.00族群2e1.955.152.24族群1f2.674.951.00族群3g3.675.701.41族群3h3.805.151.00族群3i0.333.543.16族群1步驟3(第二次疊代):由新的資料中心點為起點,建立出第二輪的3個族群k-Means族群推算法-範例-續步驟4(第二次疊代):找出每一個族群新的中心點族群
5、1={(1+4+2)/3,(3+1+2)/3}=(2.33,2)族群2={(2+3+1)/3,(5+5+6)/3}=(2,5.33)族群3={(5+6+6)/3,(2+2+3)/3}=(5.67,2.33)族群1族群2族群3k-Means族群推算法-範例-續資料點與m1的距離與m2的距離與m3的距離族群a1.662.544.72族群1b3.020.334.54族群2c3.071.053.78族群2d4.221.25.94族群2e1.954.772.13族群1f2.674.480.75族群3g3.675.20.47族群3h3.804.630.75族群3i0
6、.333.333.68族群1步驟3(第三次疊代):由新的資料中心點為起點,建立出第二輪的3個族群k-Means族群推算法-範例-續步驟4(第三次疊代):找出每一個族群新的中心點族群1={(1+4+2)/3,(3+1+2)/3}=(2.33,2)族群2={(2+3+1)/3,(5+5+6)/3}=(2,5.33)族群3={(5+6+6)/3,(2+2+3)/3}=(5.67,2.33)族群1族群2族群3abcdefghi這種方式的目的是要由已知的屬性來找出未知屬性的值。它的概念是類似的資料會有類似的值。如果兩筆資料的已知屬性很接近,那它們未知屬性的值也會很
7、接近。k-近鄰法k-近鄰法的步驟如下:決定要以多少個最接近的資料點來決定我們要求的數值。換句話說,決定k值。加入訓練集的資料。當有新的資料時,我們就找出訓練資料集中k個與這筆新資料最近的資料值。由於這k個資料的值是已知的,我們就可以由這些已知的值中來推算新資料這個屬性的值。k-近鄰法距離函數是被用來找出不同筆資料之間的距離。在計算距離時,需要能夠將不同維度的距離用同一種標準顯現出來。最常用的有以下兩種方式:距離函數Min-MaxNormalization:Z-ScoreStandardization:在找出k-近鄰之後,有以下兩種方式決定未知資料值:假設
8、每k筆接近的資料都是一樣的重要。假設與新資料越接近的資料值比重應該越大。一個資料