群集分析 (cluster analysis)

群集分析 (cluster analysis)

ID:1500385

大小:567.00 KB

页数:75页

时间:2017-11-12

群集分析 (cluster analysis)_第1页
群集分析 (cluster analysis)_第2页
群集分析 (cluster analysis)_第3页
群集分析 (cluster analysis)_第4页
群集分析 (cluster analysis)_第5页
资源描述:

《群集分析 (cluster analysis)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、群集分析(ClusterAnalysis)1內容概要簡介資料的表示相似度的計算與測量分群法的採用分割式分群法非分割式分群法分群法在大型資料集合之設計評估分群的結果2簡介(1)群集分析的概念與目的將資料集合中的資料記錄,又稱為資料點,加以分群成數個群集(cluster),使得每個群集中的資料點間相似程度高於與其它群集中資料點的相似程度主要的目地是分析資料彼此間的相似程度,藉由分析所找到的群集結果,推論出有用、隱含、令人感興趣的特性和現象在群集分析的過程中,並沒有預先指定好的類別資訊,也沒有任何資訊可以表示

2、資料記錄彼此之間是相關的,所以群集分析被視為一個非監督式學習的過程3簡介(2)群集分析在資料探勘過程中所扮演的角色資料精簡將原本大量的資料加以分群成數個群集,並從每一個群集中挑選具有代表性的資料記錄來進行後續的處理推斷假設的產生推斷出所關注資料中可能存在的某些特性或現象“年輕人通常年收入較低”、“中年人通常年收入較高”推斷假設的驗證對推斷假設作有效性的驗證試圖驗證“年輕人通常年收入較低,是否也代表其消費能力較低?”此假設性推斷時,可以對於“年齡”、“年收入”和“消費金額”所描述的資料記錄進行群集分析歸屬

3、預測分群結果應用於未知分類之資料記錄,預測資料所歸屬的群集4簡介(3)線上購物網站的使用者族群與消費能力會員年齡平均月收入(千)120202212632225441305433265240755385簡介(4)群集分析應用領域交易行為分析解各類型使用者的行為模式空間資料分析幫助使用者自動化分析圖像資料庫所產生的影像資料,了解感興趣的特性和現象文件管理將文件加以分門別類,幫助文件資料的管理和使用6簡介(5)群集分析五個主要的循序工作項目資料的表示:找出代表性資料維度來表示資料點相似度的計算與測量:計算資料

4、點間相似的程度分群法的採用:挑選適當的分群演算法評估分群的結果:對群集分析的結果進行評估群集的解釋:領域專家對分群結果做進一步解釋7資料的表示將每一資料點利用有限、一致的資料維度表示濾掉與所分析問題無關、偏差、重複的資料維度不適切的資料維度將造成分群結果凌亂、難以從中獲取各群聚的關係與差異相對於“性別”和“地址”這兩個資料維度,“平均月收入”與“年齡”這兩個資料維度將更能幫助了解各類型之會員族群會員2將可以表示為<21,26>,其中21為會員2在“年齡”此資料維度的資料數值,而26為會員2在“平均月收入

5、”此資料維度的資料數值8相似度的計算與測量衡量資料點間的相似度將決定資料記錄所歸屬的群聚,並影響整個分群的結果相似度測量法是群集分析中最根本的課題相似度的計算與測量的考量資料型態的考量應用範圍的考量資料離散程度與複雜性的考量9資料型態的考量(1)連續性資料維度通常利用簡單的空間距離計算公式,透過衡量資料點間距離的遠近來判斷彼此間的相似程度尤拉距離(Euclideandistance)資料點xi=和資料點xj=之間的尤拉距離:d2(xi,xj)=

6、=()曼哈頓距離(Manhattandistance)dM(xi,xj)==10資料型態的考量(2)尤拉距離與曼哈頓距離在二維空間上的物理意義會員1=<20,20>與會員2=<21,26>之間的尤拉距離與曼哈頓距離分別如下所示d2(x1,x2)=6dM(x1,x2)==711資料型態的考量(3)類別型態資料維度利用字串比對的方式,對於資料數值完全相同時則相似度以1表示,否則以0表示透過專家事先訂定資料數值間的相似度與輔助之計算公式先轉換或對應成連續性的資料數值,再套用距離計算公式來計算其相似度12應用

7、範圍的考量(1)資料點之間的相似程度群集間的相似程度13應用範圍的考量(2)14資料離散程度與複雜性的考量一般相似度計算公式通常對資料點中各資料維度給予相同的重要性,然而這將造成值域(domain)較大的資料維度將左右分群的結果會員A=<20,20000>、會員B=<21,22000>與會員C=<40,21000>透過尤拉距離的相似度公式計算後,將會認定會員A與會員C相似度較高;用人來判斷,會員A與會員B應該較可能屬於同一個族群15分群法的採用分群法的種類應用領域:應用的目的通常決定分群法的使用分割式分

8、群法適合找出類圓形和群集大小相似的群集階層式分群法或以密集度導向分群法適合找出自然形狀的群集任意大小的群集資料內容有些分群法相當容易受雜訊或偏移值的影響資料維度與資料記錄數量的大小會影響分群法的成效品質與速度的取捨品質與速度的需求常常是矛盾而難以取捨的16分割式分群法(1)概念將資料點歸屬到數個互不交集的群集中,讓每一群集中的資料點與該群集之群集中心(clusteringcenter)相似程度高於與其它群集中心,企圖使得每個資料點距離它所屬

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。