欢迎来到天天文库
浏览记录
ID:42021200
大小:306.50 KB
页数:47页
时间:2019-09-06
《《资料探勘》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、資料探勘第一單元資料探勘的簡介資料的預備本周綱要資料預備概念與重要性資料預備的工作項目原始資料的特性與資料預處理資料的減量資料預備概念何謂資料預備?資料庫中的原始資料,經常包含許多雜質、不完整或是不一致的資料。資料預備通常包括了資料的預處理與資料的減量。資料預處理主要目的在針對原始資料中的雜質(異常)、不完整或不一致的資料進行處理。資料減量目的為降低原始資料量或資料維度,以減輕進行資料探勘負擔。資料預備的主要目的在對於原始資料進行預處理與資料減量,將資料以標準格式進行組織及改善資料的質量,以便能夠得到最佳的資料探勘結果。資料
2、預備的重要性資料預備包含的工作項目資料的預處理資料清理資料整合資料轉換資料的減量資料的減量之目的就是縮小欲進行探勘資料的數量或是維度,但是基本上以不影響探勘之後的結果為主。原始資料的類型數值型的資料包括實數變數以及整數變數數值型資料的值是具有順序關係的,例如:3>6,6>8數值型資料的值是具有距離關係的,例如:2.5與5.7間的距離為3.2類別型的資料類別型的資料又稱為符號型或象徵型的資料類別型資料僅具備相等或是不相等的關係,例如:黑色=黑色,白色≠紅色許多常見的資料屬性都屬於類別型資料,如:顏色、姓別、國籍類別型的資料假如只
3、有兩個值的話,例如:是/否,男性/女性,通常可以0或1來轉換為數值型的資料如變數值較多時,如:有N個變數值情形下,就可以N個二位元數值變數去表示原始資料的類型以資料值的類型來進行分類連續變數區間比例(零點的定義隨應用而定)比率比例(具有絕對的零點)離散變數名義變數(如郵遞區號,…)次序變數(次序或等級的關係,如等第,…)週期變數(距離的關係,如一週的天數,…)根據的是資料與時間之間的變動特性關係來進行分類靜態資料動態或是臨時性的資料原始資料的類型高維度的資料在資料探勘領域中將資料具有很高維度的情形,稱之為維度的災難高維度的資料
4、具有以下四個重要的特性:在同樣的資料密度下,資料受影響的數量將會隨著維度的增加,而呈指數的倍數增加。需要很大的半徑才能包含大維度空間內的所有資料幾乎每一個高維度空間的資料點與邊之間的距離都比與其他點的距離近在高維度的情況下,幾乎每一個點都是離群值原始資料剛開始的資料量非常龐大原始資料都是非常雜亂的原始資料中,可能有不完整、扭曲、記錄錯誤和不充分的資料資料的不完整,可能在衡量、計算時發生錯誤造成雜亂的原因為記錄的錯誤,特別是在大量的資料中最容易產生這種情況扭曲的資料選擇錯誤的資料衡量方法錯誤的資料探勘的工具太過理想化的模式下原始
5、資料的特性不一致的資料不一致的資料所指的是相同的資料卻出現兩種以上不一致的狀況發生原因:通常是因為命名規則出現問題(如同一個屬性在不同表中的名稱不同)、資料格式的不同,或是資料代碼的不同。不完整的資料在原始資料中,空的資料值或是有所遺漏的資料,都稱之為不完整的資料。發生原因:資料屬性並非必須,在進行資料記錄時,易造成時有時無的情形。資料在當時被認為是不必要的。誤解或記錄設備的問題,而使得相關的資料未被記錄。與其他紀錄的內容不一致而被刪除。資料為歷史的紀錄,而且沒有經過修改與更新。不完整的資料處理的方法通常由進行資料探勘的技術人
6、員,邀集相關知識領域的專家,以其專業的領域經驗,輸入合理、可能或期望的資料。利用較為簡單且自動化方法來填補資料,以解決資料不完整的情形。利用一個已事先定義好的單一值來填補所有遺漏的值利用平均值的方式,填補遺漏的資料利用分類後的子群組之平均值填補遺漏的資料利用預測的技術,以求得遺漏的資料最可能的值迴歸分析、貝氏網路、決策樹或是叢聚方法。異常的資料所謂資料中的雜質、異常的資料指的就是資料中存在錯誤或離群值(與大部分資料的分布差距過大)。發生原因資料蒐集的設備出現問題。在記錄資料的過程中,發生人為或是電腦方面的錯誤。資料在傳輸的過程
7、中產生錯誤。異常的資料處理的方法人工的離群值偵測方法在離群值的偵測技術中,假如資料的維度在三以下時,最方便的偵測方法就是利用視覺化的方法。自動的離群值偵測技術統計的方法以距離為基礎的方法以偏差為基礎的方法異常資料之處理Binning方法分配的方法有等高式和等寬式,如圖所示等高式資料分配方式,指的是每一個箱子中的資料數目皆相等等寬式的分配方法則是每個箱子中的值之間距(箱子中最大值和最小值差距)相等,一般而言寬度愈大,平滑效果愈明顯分配好每個箱子中的資料後,隨即可以進行資料的平滑化平均值法資料平滑化技術中值法資料平滑化技術邊界法資
8、料平滑化技術例:假設某屬性的值為18,12,3,9,7,6,15,21,16,採用分配技術平滑資料消除噪音。分佈規則為等高,高度為3,平滑規則為平均值平滑。首先,將屬性的值排序為3,6,7,9,12,15,16,18,21然後,分佈規則(等高,高度為3)將資料分佈為箱1:3,
此文档下载收益归作者所有