我所知道的一点 data mining

我所知道的一点 data mining

ID:35309404

大小:326.00 KB

页数:30页

时间:2019-03-23

我所知道的一点 data mining_第1页
我所知道的一点 data mining_第2页
我所知道的一点 data mining_第3页
我所知道的一点 data mining_第4页
我所知道的一点 data mining_第5页
资源描述:

《我所知道的一点 data mining》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、◎我所知道的一點DataMining 1.前言2.定義3.方法4.工具5.應用6.結論前言Datamining(DM)是一個蠻當紅的專題。我們所面臨的第一個問題,便是不知道應該怎麼去翻譯這個名詞。硬譯為「資料挖掘」雖沒有大錯,但聽起來不夠高雅,也沒有學術的味道,連商業的氣味都不夠。一時之間因為實在想不出一個好詞,只好放下不談。甚麼叫DM?關於定義,各人的說法不一。基本上,先給你一個大的dataset──假設你可以讀它,下面的問題是:從這裡你可以得到甚麼?極大部分──如果不是全部──的datasets,是已經存在的。時代不一樣了,現在數據來得既多又便宜,多到沒有人有

2、時間去看的程度。這有一點像我們的醫療體系。早先的醫生要望聞問切,在少量的數據裡,設法組合出最好的治療方案。現在則是一個名醫,一上午要門診到一百五十個病人以上。他只能靠algorithm來看病:問一兩個問題,聽一兩個問題,然後開藥。這是DM的精神,並不是傳統的dataanalysis的精神。▲  TOP   定義不同的人有不同的看法:比較樂觀的是BerryandLinoff(1997)的說法:●分析報告給你後見之明(hindsight)●統計分析給你先機(foresight)●DM給你識見(insight)這話說得太強,我不是那麼地相信。因為這三者都是在既有的資料上

3、做分析,在概念上應該並無軒輊,差別只是手上的dataset大小和性質,因此,由方法的不同才有定義的不同。較負面的定義來自Friedman(1997),他說"Dataminingisacommercialenterprisethatseekstominetheminers"。這句話有多少真實的成分,我不深知。但是在雅虎的入口網站上鍵入「DataMining」,立刻便找到一百五十多個網址。這是在方法論都還沒有成熟之前便已有大量的commercialproducts的情形。看起來真是商機無限。在另一方面,我卻在文獻上讀到:      "……whileIappreciat

4、etheimportanceofdatamining,inpracticetheprofititbringshasturnedouttobesurprisinglylimitedinmanykeybusinesses."(Kann2000)比較中肯的是Handetal(2000)的說法:"Dataminingistheprocessofseekinginterestingorvaluableinformationinlargedatabases"▲  TOP   方法Demming(1943)曾說:「蒐集數據的目的是為了行動」。這是在數據的蒐集並不便宜的時候所說的

5、話。現在要反過來看:已經有了一大堆數據,當初只是為了蒐集而蒐集──因為反正不貴,而且說不定有用──問這裡面可以提供怎樣的信息,能讓數據的所有人採取甚麼行動?這意思仍然是要我們用心地去看這些數據。「用心看」有兩個角度:整體的(global)和局部(local)的。3.1Globalview:模型自整體的角度來看一個dataset,是靠統計學裡面的抽樣就可以發揮得不錯的。抽樣的要點的thinning──用一組較小的、容易處理的精選的data來反應整體。從這裡我們可以做一大堆傳統的建模工作。但這裡面最主要的觀念是抽樣。例如SAS的EnterpriseMiner中所建構出

6、來的「Table」,就是自全部的數據中所抽樣而得。他們引以為自豪的biasedsampling,在抽樣的理論裡行之有年,並不足奇。自抽樣的觀點來看,母體再大都不是問題──它反而使得抽樣的理論更加簡單。何況在database上抽樣,成本既低,又沒有我們最頭痛的non-response問題。這一部分,可以說是所有我們想做的理論和方法都十分成熟,只要找一群還不錯的人,將這些已知的事物組合包裝就好。在table上做傳統分析,最後的結果當然是一個可以用來描繪所有數據之間的關係的模型。這是傳統的計量方式:模型是所有資料的摘要。3.2Localview:Patterndetec

7、tion自局部的角度來看DM,到目前為止,主要的目的是patterndetection。這和我們常聽到的patternrecognition頗有不同。用雷達找飛機的工作,算是後者──我們知道飛機是我們要找的對象。但是在DM中,多半我們並不知道要找甚麼。在技術上,這也不能靠抽樣來做。而主要的想法之一,是靠「算則(algorithms)」而不是靠統計。Pattern是指數據的局部結構,因此在這一部分,DM強調的反而是算則。這當然並不奇怪,數據一多,用人力是不能做的,我們只有靠明確的指令讓電腦一個一個幫我們找。▲  TOP   工具知名的軟體,像SAS,SPSS,SPL

8、US,ST

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。