资料探勘 -3 资料前置处理

资料探勘 -3 资料前置处理

ID:5960673

大小:274.00 KB

页数:39页

时间:2017-11-16

资料探勘 -3 资料前置处理_第1页
资料探勘 -3 资料前置处理_第2页
资料探勘 -3 资料前置处理_第3页
资料探勘 -3 资料前置处理_第4页
资料探勘 -3 资料前置处理_第5页
资源描述:

《资料探勘 -3 资料前置处理》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第三章資料前置處理1第三章資料前置處理簡介資料前置處理的主要工作遺缺填補法雜訊去除法資料正規化資料形式轉換*資料型態轉換*資料模糊化**總結2資料未經處理的問題資料不完整(dataincomplete)資料中某些屬性值有遺缺資料有雜訊(noise)資料有錯誤或是特例(outlier)造成資料不一致(datainconsistency)商品在台灣是以台幣,在美國則是美金計價有高品質的資料,才有高品質的探勘結果3第三章資料前置處理簡介資料前置處理的主要工作遺缺填補法雜訊去除法資料正規化資料形式轉換*資料型態轉換*資料模糊化**總結4前置處理

2、的主要工作資料整合整合後的資料清理過的資料資料轉換準備進行探勘的資料各種不同來源的資料資料清理5資料整合資料整合(dataintegration)解決多重資料來源的整合問題主要工作消除資料不一致數值不一致(datavalueconflict)綱目不一致(schemaconflict)消除資料重複性數值重複綱目重複6資料清理(1)確認資料正確性、完整性常見的資料正確性問題7資料清理(2)確認資料完整性常見的資料完整性問題:8資料清理(3)其它清理工作遺缺填補:人工填補或自動填補雜訊消除:雜訊使探勘結果有相當大的偏差,必須將雜訊移除或將資料

3、做平緩化處理(smoothing)9資料轉換資料統整(dataaggregation)加總、統計或是建立資料方塊(datacube)將資料做初步整理,使得資料更適合探勘資料一般化(datageneralization)資料的概念階層(concepthierarchy)向上提升會員地址用城市或是北中南東四區取代資料精簡的方法之一建立新屬性(attributeconstruction)利用舊屬性將探勘所需的新屬性建立10第三章資料前置處理簡介資料前置處理的主要工作遺缺填補法雜訊去除法資料正規化資料形式轉換*資料型態轉換*資料模糊化**總結1

4、1資料遺缺原因資料建立時未輸入故意或是不小心造成資料沒有被輸入設備故障例如收銀機故障,導致顧客消費明細無法輸入因資料內容不一致而被刪除當資料內容不一致時,為了避免錯誤的資料影響分析的準確性,可能會將該項資料以空值取代,因此產生資料的遺缺12資料遺缺處理方法-直接忽略法處理資料遺缺最簡單的方法適用時機進行分類探勘時,若資料的分類標記(classlabel)為空值,這筆資料因無法被正確分類,便可直接刪除適用對象蒐集資料量很多、遺缺資料只佔一小部分缺點資料遺缺比例很可觀時,會造成大量資料流失13資料遺缺處理方法-人工填補法處理資料遺缺的現象,

5、可採用人工來填補範例當某會員資料的生日屬性有遺缺,可打電話詢問該會員,以取得其生日並加以填補。缺點當資料遺缺較多時,耗時且人力負擔沉重。14資料遺缺處理方法-自動填補法主要兩種方式填入一個通用的常數值如填入“未知/unknown”,成為一個新的類別填入該屬性的整體平均值不會對統計結果造成太大的影響不影響統計結果的情況下,保留此資料屬性缺點是不夠客觀用推論法求出較可能的值來填入貝式方程式(Bayesianformula)另一種方法是利用決策樹(decisiontree)15第三章資料前置處理簡介資料前置處理的主要工作遺缺填補法雜訊去除法資

6、料正規化資料形式轉換*資料型態轉換*資料模糊化**總結16雜訊的處理方法結合電腦和人工檢視結合電腦偵測與人工檢視資料平緩化處理回歸分析法(regressionanalysis)將資料套入回歸函數以消除雜訊裝箱法(binningmethod)將資料排序並切割成數個箱子用平均值、中位數或邊界值來取代箱子中的每一筆資料以消除雜訊17裝箱法-等寬分割法等寬分割法(或稱等距分割法,EqualWidth/Distance)將資料的數值範圍劃分為N個間隔相同的區間若A和B分別為此屬性中的最小與最大值,則每個區間的間隔大小為:W=(B-A)/N.假設將

7、12樣商品的價格資料排序如下:12,15,18,21,28,33,36,45,50,52,60,80欲分割為四個箱子則箱子寬度=(80-12)/4=17箱子1(12-28):12,15,18,21,28箱子2(29-45):33,36,45箱子3(46-62):50,52,60箱子4(63-80):80最直覺的分割法,但特例對分割結果的影響很大不適用於偏斜的資料(skewdata)18等寬分割法示意圖12,15,18,21,28箱子1箱子233,36,45箱子350,52,6080箱子419裝箱法-等深分割法等深分割法(或稱等頻分割法,

8、EqualDepth/Frequency)將資料劃分為N個資料數量大致相同的區間《例》假設將12樣商品的價格資料排序如下:12,15,18,21,28,33,36,45,50,52,60,80四個箱子則每個

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。