资料采矿(DataMining)技术简介

资料采矿(DataMining)技术简介

ID:37679933

大小:142.50 KB

页数:10页

时间:2019-05-28

资料采矿(DataMining)技术简介_第1页
资料采矿(DataMining)技术简介_第2页
资料采矿(DataMining)技术简介_第3页
资料采矿(DataMining)技术简介_第4页
资料采矿(DataMining)技术简介_第5页
资源描述:

《资料采矿(DataMining)技术简介》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、10資料採礦(DataMining)技術簡介*鄧家駒近年來,商業統計軟體的設計有個新的趨勢,就是專為當前發展得已經相當成熟的資料庫與資料倉儲(database&datawarehouse)技術,針對使用這一類技術所儲存的鉅量電子化資訊,發展出一套套分類與解析的數值技術分析軟體。一般而言,資料採礦所分析的資料,例如就金融相關的申請貸款資料而言,不外乎以下的數種類型:(一)個別資料:例如個人資料的年齡、性別、地址、所得、教育水準、婚姻狀況等,或者是公司行號資料的行業別、財務報表、經營績效、市場佔有等等;(二)行為資料:例如帳戶的貸款額度、利率、款項

2、動支情形、還款狀態、還款餘額、累積利息等等;(三)背景資料:例如個人或公司的當前負債總額、信用額度、申請信用審查頻率、信用情形、壞帳記錄等等;(四)經濟資料:例如申請當時的利率水準、物價指標、房地產等標的物的物價水準、景氣循環指數、與其他經濟指標等等;(五)其他資料:與活動相關的其他資訊,例如抵押品資訊、保證人資訊、聯貸資訊等。為何不對資料庫使用一般的統計軟體來作分析呢?這裡有兩個主要的原因。在過去統計軟體的缺點之一,就是軟體設計者從來就沒有預期會使用到這麼龐大的資訊。當資料量增大到一個程度時,這些傳統的統計軟體,配置在一般PC之下的可運算容量

3、與運算速度都會產生嚴重的問題。例如,JCIC(聯合徵信中心)每年都會接受所有金融單位許多的資訊,這些每年或每季傳過來的資訊不僅極端的龐大,另外在時間演進之下也會不斷的累積。其結果是總資料量的龐大決不是一般人所能想像的。同樣的,我們也可以設想我們的健保資料,也會在時間的進程當中,因為不斷的有人到各類醫院診所看各種疾病因而不斷的累積。這當然是因為當前發生的疾病資料固然重要,過去的疾病與用藥歷史資料也是不可忽視的。於是乎時間越久,各種資料的累積當然就越多。另外,如果我們希望儲存的資訊細節越是詳細的話,資料的科目(變數)項目當然也就越多,其資訊密度也就

4、越密集,當然所涵蓋的資料量也自然而然的更為龐大。其次,隨著統計方法的日趨複雜,與應用範圍日益廣闊之下,那些傳統的統計軟體,在操作上(尤其在資料整理與進階選項這兩部分)就變得非常的複雜而且艱深。由於傳統統計方法軟體當中的各種不同的選項,隨著其複雜程度而日益增多。於是統計軟體所解出來的結果,不論是在分析上或者在解釋上,都極端需要專業經驗的協助。而且,傳統的統計軟體設計,主要在於解決單一的問題,片面的問題,並沒有意圖要設計成為一整套分析流程。這也是資料採礦軟體與傳統統計分析軟體的最大差異之處。*作者係政大商學院風險管理研究所教授,並擔任資料採礦中心主

5、任。。於是,資料採礦(datamining)10軟體設計者將許多相當艱深的進階數值分析方法,尤其是納入了許多多變量統計方法,改寫成相當容易操作與設定的軟體執行程序(routineorprocess)。於是,只要使用這一類的軟體,就可以輕易的設計出一套套標準化的資料採礦分析程序。這些軟體的執行標準程序一旦設計與驗證完成,事後只需要更新輸入的資料庫或資料倉儲內容,就可以一而再地重複執行同樣的標準程序,根據這樣的程序重複實施資料探索與數值分析的動作。首先簡單的介紹一下資料採礦的內容。1.資料採礦的內容簡介§1.功能資料採礦的功能,在於針對大量的電子化

6、資訊作分析。例如儲存在銀行、保險、百貨、航運業等帳戶、信用卡、會員卡、一般客戶等的開戶、使用、或交易資料;保險公司銷售業務代表的行銷業績與進修獎懲資料;大公司或政府的人事考績與調遷晉升資料;健保當中各醫院診所的醫師用藥設備與病人就診等資料;政事務所的兵役與戶口資料;監理所的汽機車登記與保險違規等紀錄;外國人與外勞的出入境與活動資料;警察消防隊國軍等的人力訓練器械佈署等戰備資料;甚至於細微到一家普通公司行號的總務資料,例如對於文具紙張儀器設備等耗材的消耗情形與使用績效,資料採礦都可以針對這些資料作出詳盡的分析。§2.目的資料採礦的目的,在於針對前

7、段所提到的大量的電子資訊,一再重複作挖掘與分析的動作,目的在於尋找該資料當中有可能隱含的結構形式(structuralpatterns),再進一步尋求該結構當中的關聯或因果,然後針對這些結果,從當中探索管控之道與可能的商機。舉例而言,如果我們針對某公司過去的銷售業績資訊,應當可以探索到哪一類的行銷人員(年紀、教育程度、營業處、銷售區域、與客戶特性等),最適合銷售哪一類的商品,以及最應當避免推銷哪一類的商品。又哪些商品最適合作跨售,哪些商品並不適合搭配其他商品作銷售。又哪一類的客戶適合哪些特定商品,公司又應當為哪一類的主要客戶設計更貼心的商品與「

8、套餐」等等。這些都可以經由現有銷售記錄當中的業務代表、客戶、與商品三方的交互資訊分析,從當中搜尋其資料結構形式,再尋求其中的關係與因果,然後探索管控與

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。