决策树演算法.ppt

决策树演算法.ppt

ID:50505346

大小:3.14 MB

页数:49页

时间:2020-03-14

决策树演算法.ppt_第1页
决策树演算法.ppt_第2页
决策树演算法.ppt_第3页
决策树演算法.ppt_第4页
决策树演算法.ppt_第5页
资源描述:

《决策树演算法.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第8章 決策樹演算法大綱說明決策樹演算法的概念討論有趣決策規則的概念用一個實例來展示決策樹的規則探討決策樹的實際應用展示在龐大的資料集中如何應用決策樹在附錄中展示See5的決策樹分析過程決策樹在資料探勘的領域中,決策樹(decisiontrees)被認為是一種樹狀結構的規則(經常被稱為關聯性規則)。決策樹資料探勘包含了蒐集分析者認為與決策有關的變數,以及分析這些變數對預測結果的能力。決策樹提供了一種以規則為基礎的演算法:ID3決策樹以啟發式方法(entropyheuristic)來選擇哪個屬性適合成為下一個節點,這是與其他資料探勘工具在選擇分支上的不同處。決策樹

2、的運作表8.1各種屬性值的組合決策樹的運作表8.2第一個規則決策樹的運作圖8.1貸款者的部分樹狀結構此結構使用了分類資料,這樣型態的樹被稱為分類樹。在做預估及預測的情況中,如果資料有連續的結果也可用樹狀結構來表示,這些樹就被稱為迴歸決策樹(regressiontree)。有趣的規則規則的有用性是用信任度和支持度來衡量。關聯規則的支持度(support)代表的是,在資料庫中此規則的變數在同一筆記錄出現的比率。最小信任度(confidencelevel)及支持度可以用來決定由決策樹方法所產生的規則(或其他關聯性規則)是否要加以保留。利用資料探勘找出意外的資訊(知識探

3、索)具有極高的興趣度(interestingness)。機器學習機器學習(machinelearning)剛開始並沒有任何的假設,僅針對輸入資料與分類結果進行分析。雖然不考慮專家的判斷可能會被認為效率比較差,但是卻可避免人為的偏見。反覆的分割可以將資料分成更細微的小集合,最後的結果就是一株決策樹。機器學習表8.3過去20位貸款者的資料機器學習表8.4資料分組機器學習表8.5結果機器學習大多數的資料探勘軟體使用熵值(entropy)衡量每個變數的區別能力。由Koonce所提出的熵值公式機器學習表8.6年齡類別的熵值機器學習第一條規則第二條規則機器學習表8.7計算機

4、率機器學習表8.8重算後的機率機器學習第三條規則表8.9以三條規則預測正確率機器學習第四條規則表8.10以四條規則預測正確率機器學習機器演算學習規則機器學習表8.11規則應用測試結果機器學習圖8.2規則組的決策樹機器學習表8.12規則組的錯差矩陣決策樹的應用存貨預測資料探勘模式是由歸納來產生規則。臨床醫療資料庫探勘根據約略集合理論(roughsettheory)發展一個以機率規則為基礎的歸納系統。軟體發展品質知識發掘的目標在於從過去發展模組的資料中發現樣式,如此可以對會發生錯誤的軟體模組有更好的預測。軟體發展品質第一個被CART演算法所辨認出的模式有以下規則軟體

5、發展品質第二個被CART演算法所辨認出的模式有以下規則軟體發展品質—評估表8.13測試資料的軟體品質錯差矩陣表8.14測試資料的軟體品質錯差矩陣貸款系統資料表8.15針對低齡的分群資料貸款系統資料表8.16針對壯年的分類資料貸款系統資料表8.17針對高齡的分群資料貸款系統資料表8.18組合結果貸款系統資料表8.19年齡的熵值計算貸款系統資料第一條規則8.20第一規則的錯差矩陣貸款系統資料第二條規則表8.21案例的機率貸款系統資料表8.22前兩個規則的錯差矩陣表8.23重算後的機率貸款系統資料第三條規則表8.24三條規則的期望準確率貸款系統資料表8.25三條規則的

6、錯差矩陣機器學習演算法停在貸款系統資料表8.26由均衡資料集得到的結果保險欺騙資料模式表8.27See5詐欺模式的錯差矩陣求職者資料使用前300個類別型觀察值當作訓練資料,規則如下:求職者資料表8.28求職者類別型測試資料的模式錯差矩陣求職者資料標準化的連續型資料集以See5的決策樹進行分析,產生的決策樹如下:求職者資料表8.29求職者分類模式的測試資料的錯差矩陣See5決策樹分析:資料清理表8A.1消費資料的變數資料清理表8A.2Cloth2的前5個觀察值資料探勘程序圖8A.1找出要載入的資料圖8A.2資料已載入資料探勘程序圖8A.3選擇分類的建構方式圖8A.

7、4建構設定資料探勘程序圖8A.5經過訓練後的決策樹圖8A.6選擇使用分類資料探勘程序圖8A.7輸入樣本資料圖8A.8預測結果總結決策樹是非常有效且有用的資料探勘方法,是自動機器學習的一種應用。非常穩定,不會全然地受到雜訊和錯失資料的影響。可以處理大資料集,也可處理類別或數字型態的資料。對得到的結論有很好的解釋能力(規則可用自然語言表示,所以很容易和經理人員溝通)。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。