商业智慧与资料探勘.ppt

商业智慧与资料探勘.ppt

ID:51217979

大小:960.50 KB

页数:36页

时间:2020-03-20

商业智慧与资料探勘.ppt_第1页
商业智慧与资料探勘.ppt_第2页
商业智慧与资料探勘.ppt_第3页
商业智慧与资料探勘.ppt_第4页
商业智慧与资料探勘.ppt_第5页
资源描述:

《商业智慧与资料探勘.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、商業智慧與資料探勘資料探勘的基本觀念企業的焦點已從以往的資料整理與蒐集,轉變成如何有效的利用資料庫來進行資訊的獲取。資料探勘就是放棄以往透過人類分析師主觀解讀的方式,而讓資料、數字自己說話,來呈現出最真實的一面資料探勘的演進1800年統計學的萌芽1970年代專家系統及樣式識別(PR)理論的提出及系統實作1980年歸納法則式的機器學習理論及關聯式資料庫的發展1990年管理資訊系統(MIS)、及決策支援系統(DSS)陸續受到重視,專家學者開始探討如何有效地從資料庫中進行知識萃取(KDD)1995年資料探勘名詞的出現資料探勘的成功案例

2、IBM公司的AdvancedScout系統,自動分析NBA敵我球隊及球員的數據,以協助教練作出最佳化的戰術組合加州理工學院噴氣推進實驗室與天文學家合作開發的SKICAT系統,成功幫助天文科學家發現遙遠的星體芬蘭赫爾辛基大學計算機科學系研發的TASA,則可預測網路通信中的異常現象等等資料探勘的程序一.決定企業探勘資料的目的二.相關領域知識的瞭解三.資料收集與整合四.使用適當的資料探勘技術五.結果分析六.知識應用資料探勘的前置步驟形成資料倉儲(DataWarehousing)資料選取資料清理(cleaning)資料精簡和轉換資料探勘

3、的技術1.資料方塊(DataCube)2.分類分析(Classification)3.群集分析(ClusteringAnalysis)4.聯結(關連)分析(AssociationRuleAnalysis)5.序列樣式相關分析(SequentialPatternAnalysis)6.鏈結分析(LinkAnalysis)7.時間序列相似性分析(TimeSeriesSimilarityAnalysis)維繫客戶關係避免客戶流失穩定流動性高的客戶定義/預測流動性高的客戶分類分析群集分析聯結分析次序相關分析資料探勘技術交叉行銷新產品與市場

4、開發產品合售產品創新資料探勘任務企業策略企業問題資料方塊(一)表14-1客戶代號負債狀況信用歷史紀錄抵押品月薪風險程度1高壞無2萬以下高2高未知無2-4萬高3低未知無2-4萬中等4低未知無2萬以下高5低未知無超過4萬低6低未知適當超過4萬低7低壞無2萬以下高8低壞適當超過4萬中等9低好無超過4萬低10高好適當超過4萬低11高好無2萬以下高12高好無2-4萬中等13高好無超過4萬低14高壞無2-4萬高資料方塊(二)風險負債抵押品顧客人數高高適當0無4低適當0無2中等高適當0無1低適當1無1低高適當1無1低適當1無2與範例對應之一維

5、資料方塊資料方塊(三)DataCube(資料方塊法)資料方塊法的一般概念為具體化一些經常被要求的高成本計算尤其是計數(count)、總計(sum)、求平均數(average)、取最大值(max)等函數將具體化後的景觀儲存在一個資料方塊,可供決策支援、知識發現及其他應用做參考分類分析(Classification)資訊含量:=1(bit)Headsshowingwith75%ex:anhonestcoin=1.531ExpectedInformation:使用月薪收入作為最上層辨識屬性,則C1={1,4,7,11},C2={2,3

6、,12,14}C3={5,6,8,9,10,13}(圖14-7)=0.564gain(income)=I(Table)-E(income)=0.967gain(credithistory)=0.266gain(debt)=0.581gain(collateral)=0.7563.群集分析(K-MEANSALGORITHM)1.任意選擇k個樣本資料,作為一開始k群集的中心點,一般稱為種子。2.對任一輸入資料,皆計算與此k個中心點的距離,並將此資料點指定到最近中心點的群集中,直到分派完畢。3.計算每一群集新的中心點(此平均值就不一定

7、剛好對應到特定輸入資料點)。4.重新根據最短距離,指派資料到適當群集。5.如果重新分派群集的結果都沒變動,代表群集分析結束;否則重新執行第3步驟。4.聯結分析(AssociationRules)範例交易代號交易項目1柳橙汁,碳酸飲料,清潔用品2牛奶,柳橙汁,清潔用品3柳橙汁,洗衣精,碳酸飲料4碳酸飲料,底片5碳酸飲料,洋芋片聯結分析RuleX→Y滿足X∩Y=Ø1.X和Y的所有交易項目的集合,必須出現在至少S%全部交易中…minimumsupport2.在所有包含X之交易中,至少有C%包含Y的交易…minimumconfidenc

8、e聯結分析演算法(一)1.計算出所有1-itemset的支持度,並找出1-itemsets的支持率大於或等於最小支持率的集合(稱之為large1-itemsets)若large1-itemsets為空集合,則停止執行2.結合所有large1-itemsets中的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。