资源描述:
《资料探勘 -4 资料精简》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、資料精簡(DataReduction)1內容概要簡介資料精簡所包含之觀點資料維度精簡(DimensionReduction)資料記錄精簡(RecordReduction)資料數值精簡(ValueReduction)2簡介(1)資料精簡在資料探勘過程中所扮演的角色應用在資料的前置處理階段(pre-processingphase)從資料集合中挑選、過濾出具代表性的資料,進而r減少整個資料探勘的時間和成本整個資料探勘過程都可以應用資料精簡的技術前置處理階段(pre-processingphase)探勘階段(miningphase
2、)後置處理階段(post-processingphase)3簡介(2)前置處理階段之資料精簡選取使用者感興趣的資料集合濾掉一些無關、偏差、重複的資料探勘階段之資料精簡去除不具代表性的中介資訊或法則,進而縮小探勘過程中所需花費的時間,減少產生重複、不重要的知識後置處理階段之資料精簡由探勘結果中選取其感興趣和相關的知識4資料精簡之優點提高準確性降低錯誤資料之影響挑選少量資料,大幅縮減資料探勘所需的時間助於高價值知識的取得提升知識可讀性降低儲存的成本5資料精簡所包含之觀點資料精簡:資料維度精簡、資料記錄精簡與資料數值精簡會員資料
3、集合會員編號平均月收入(千)教育程度年齡會員等級121高中30低224大學29高333國中28高420國中32低542高中31低638大學35高737高中36高資料維度資料記錄資料數值6資料維度精簡(DimensionReduction)資料維度利用年齡、教育程度、平均月收入和會員等級等資料維度來描述一個會員資料維度精簡在企業決策上的應用企業在決策支援與線上分析處理(OLAP)上,通常根據決策制定目標與應用目地的不同,會由日常線上交易處理(OLTP)資料集合中,挑選、轉換、乃至新增跟決策相關的資料維度來描述資料集合,並進行
4、分析探勘7資料維度的評估(1)需要衡量標準來挑選較好的資料維度以會員資料表為例,“平均月收入”應該比“教育程度”和“年齡”這兩個資料維度更適合做為“會員等級”評比的依據。(因為大部分收入低的會員,同常會員等級也會低)8資料維度的評估(2)測量方法一致性測量法(consistencymeasurement)關連性測量法(associationmeasurement)鑑別能力測量法(discriminationmeasurement)資訊量測量法(informationmeasurement)準確性測量法(accuracyme
5、asurement)9資料維度的評估(3)闡述測量方法的整合範例會員編號平均月收入(千)教育程度年齡會員等級11高中2低21大學1高32國中1高41國中2低53高中2低62大學2高72高中2高目標資料維度其他待評估之資料維度10一致性測量法(1)概念在使用者給定之標的資料維度下,一致性測量法的概念是利用最少的其他的資料維度,來描述資料表中每一筆記錄時,不會造成矛盾與衝突任兩筆資料記錄可以透過所選擇的資料維度來描述,但不會產生不一致(inconsistency)的情況範例以”會員等級”是標的資料維度,則單以“平均月收入”此資
6、料維度來描述原來的會員資料表,將使得資料記錄一與資料記錄二會產生不一致同樣“平均月收入”等級一但是會員一與會員二之會員等級卻不同11一致性測量法(2)“平均月收入”對“會員等級”所產生的不一致數量I(平均月收入,會員等級)=I(平均月收入(1),會員等級)+I(平均月收入(2),會員等級)+I(平均月收入(3),會員等級)=1+0+0=1“教育程度”對“會員等級”所產生的不一致數量I(教育程度,會員等級)=I(教育程度(大學),會員等級)+I(教育程度(高中),會員等級)+I(教育程度(國中),會員等級)=0+1+1=2“
7、年齡”對“會員等級”所產生的不一致數量I(年齡,會員等級)=I(年齡(1),會員等級)+I(年齡(2),會員等級)=0+2=2“平均月收入”比其他資料維度重要12關連性測量法(1)概念當兩個資料維度A、B關連度愈高,由A中的資料數值可以判斷B中的資料數值的可能性愈高範例以”會員等級”是標的資料維度,則“平均月收入”與其關連度可以概略計算為2/3*1*1=2/3平均月收入等級一時,有2/3的機會可以由此判斷為會員等級低平均月收入等級二時,有百分之百的機會判斷為會員等級高平均月收入等級三時,有百分之百的機會判斷為會員等級低1
8、3關連性測量法(2)“平均月收入”與“會員等級”的關連度R(平均月收入,會員等級)=R(平均月收入(1),會員等級)*R(平均月收入(2),會員等級)*R(平均月收入(3),會員等級)=2/3*1*1=2/3“教育程度”與“會員等級”的關連度R(教育程度,會員等級)=R(教育程度(大學),會員等級)*R