数据挖掘建模

数据挖掘建模

ID:44956974

大小:30.00 KB

页数:4页

时间:2019-11-06

数据挖掘建模_第1页
数据挖掘建模_第2页
数据挖掘建模_第3页
数据挖掘建模_第4页
资源描述:

《数据挖掘建模》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘建模:一个热门话题的解惑(续1)      (二)数据挖掘不是什么       提出这个问题很容易,回答却没有看起来那么简单。比如,我可以说,数据挖掘不是售货机,投入一个硬币,吐出来一筒可乐-输入一堆数据,产生一个方程......等等都无助于正确回答这个问题。那我们就索性从前文“数据挖掘是什么”,数据挖掘能干什么入手看看双刃剑的另一面。      第一部分“数据挖掘是什么”实际上写的比我计划要写的简单。仅仅给出了一个定义及几条注脚而已。但不管怎样最核心的东西毕竟写出来了。数据挖掘说到底是一种方法,“对观

2、测到数据集合进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。”也就是说,它是对观测数据的次级处理,往往是数据的副产品。比如,物流中心的批销单(可以理解成订单)历史数据,本身的目的是为了处理发货和配送,但用数据挖掘,可以对客户进行分类或聚类,进而也许有助于销售预测。这样,“不是什么”的问题也就来了,它的确不是专门性进行的一项完整工作,也就是说,没有人会说:老王,我们准备预测一下下个月营业高峰什么时候出现,你弄些数据来挖一挖。没有数据,挖掘是扯淡的。很多数据挖掘项目失败,不在于

3、实施者不懂算法,也往往不在于模型建立不合理不正确,而在于源头的数据就不准确不“原始”,为挖掘而挖掘。      定义的后一部分要求产生的结果是“新颖的”,那我们不多说,又一条“不是什么”可以这么理解:数据挖掘不是你先看一眼批销单,然后说我猜买《克林顿与莱温斯基》的人一定会买《希拉里自传》,我们挖一挖批销单库看看。当然这么说有的时候不能完全算错,因为毕竟科学探索还得要有想像力-但数据挖掘一般说来结果都可能会让你大跌眼镜,不是你想当然想出来然后验证。最后再从另一个维度“数据挖掘能作什么”出发回答“数据挖掘不是什么”

4、。任何严肃的数据挖掘教科书(我列几本,大家可以找找。J.Han,MichelineKambr,"DataMining-ConceptsandTechniques";DavidHand"PrinciplesofDataMining";MichaelJ.A.Berry,"MasteringDataMining-TheArtandScienceofCustomerRelationshipManagement";Adriaans,P.,andZantige"DataMining")都覆盖到以下几个区域(后续文章会详细阐

5、述): 1分类(Classification) 分类首先要对一个新的客观事物特征进行描述,然后将客观事物的观察值分配到事先确定的类别之中。 因此,数据挖掘不是先知,能预知新的类别(异常探测是另一个话题),必须是事先明确的类别,经过训练后将待分类数据归到类别标签下去。2估计(estimaiton)分类处理的是离散的结果:如“是”与“不是”,“中国”,“日本”,而估计处理的是连续的结果,因此也可以看成分类的扩展,二者在实践中常常结合使用,比如银行要决定该给哪些顾客贷款,考虑的做法是将所有顾客放入一个模型,给每个客户

6、一个从0到1的分数,即对贷款的响应概率。分类的任务转换成建立一个分数临界数值,根据对顾客响应概率的估计来对他分类。因此这一点不再阐述。3预测(Prediction)有人认为预测不是一种独立的方法,任何预测都是分类或者估计,关键在于你强调什么。我的理解是区别点在于检验。分类理论上你是可以检验的,而预测你只能等到事情发生之后。但记住,数据挖掘同样不是未卜先知,一切的神秘都在数据里,玄机是跟分类和估计一样,都得通过训练数据建立先验的某种模型(如树或贝叶斯网络),然后在此基础和前提下预测。想想也是有道理的,现实生活中,

7、我们太相信一些专家,学者的话,老吃哑巴亏,人家说今年房价一定升,咱就把攥的紧紧的钱拿出来去买房,结果好像别人的升,你的房子按兵不动啊。“专家”们的预测也是有前提和模型的,只是他的模型,只在书本或他脑子里,我们这些老百姓无缘听到,也可能人家根本不屑讲给我们这些听不懂的人。4关联(AssociationRules)这是数据挖掘中最常见的一类问题。几乎所有的介绍数据挖掘概念的文章中动辄都拿这个为例,“啤酒和尿布”,“菜篮子分析”,“购物车”分析都是这一类问题的通俗说法。我先提醒大家一句,数据挖掘运算的结果,即便是fr

8、equentitem(也就是有意义的那些关联项目)也可能是数目非常庞大的,需要进一步分析。不是挖一通然后眼睛一亮泪流满面向全世界宣布:买香烟最多的人买打火机也最多!!5聚类(clustering)聚类跟分类不同,对于数据会归于哪一“类”,事先是不知道的,完全是unsupervised学习过程,自然也就没有什么样本的概念。但同样提醒大家的是,学习的时候注意,任何的聚类方法仍然有隐性的前提

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。