深入浅出谈数据挖掘

深入浅出谈数据挖掘

ID:26195734

大小:63.00 KB

页数:7页

时间:2018-11-25

深入浅出谈数据挖掘_第1页
深入浅出谈数据挖掘_第2页
深入浅出谈数据挖掘_第3页
深入浅出谈数据挖掘_第4页
深入浅出谈数据挖掘_第5页
资源描述:

《深入浅出谈数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、深入浅出谈数据挖掘段勇编者的话:本文对数据挖掘概念的产生,数据挖掘与常规数据分析的主要区别,所能解决的几大类问题和所应用的领域都有着非常清晰的论述。作者在此篇文章中认为数据挖掘最重要的要素是分析人员的相关业务知识和思维模式。丰富的业务知识是设计有效的相关变量的必要条件,而分析人员的思维模式从另外一个方面也保障了设计变量的结构化和完整性。所以我们在掌握丰富的业务知识同时,如果能够按照正确的思维模式去思考问题,将会发现解决问题并不是很困难的。一、数据挖掘的本质一般来说,比较狭义的观点认为数据挖掘区别于常规数据分析的关键点在于:数据挖掘主要侧重

2、解决四类问题:分类、聚类、关联、预测(关于这四类问题后文会详细阐述),而常规数据分析则侧重于解决除此之外的其他数据分析问题:如描述性统计、交叉报表、假设检验等。让我们来看一个例子:某移动运营商想了解目前彩铃业务的发展现状如何?解决这个问题的方法就是常规的数据分析,通过描述性统计和交叉报表,可以知道目前彩铃业务的用户数、普及率、收入情况?不同品牌用户间的情况和差异?不同消费水平用户间的情况和差异……。这样的分析主要解决了企业过去发生了什么以及存在什么问题;如果该运营商希望建立一个模型(或者规则),从没有使用彩铃的用户群中找出一部分用户作为彩

3、铃营销活动的目标用户,如通过短信或者外呼的方式告知用户可以免费试用彩铃一个月。解决这个问题则需要使用数据挖掘的方法,如通过决策树方法可以找出使用彩铃业务可能性较高的用户的一系列特征规则,然后根据这些规则去筛选目标用户。当然数据挖掘也并不是解决这个问题唯一办法,因为在没有数据挖据这个概念之前(1990年以前),这样的问题在商业中也是普遍存在的。通过常规的数据分析依然能解决这个问题,例如研究不同品牌、不同消费水平、不同年龄、不同……的用户使用彩铃的情况,也可以总结出一套比较实用的规则来作为筛选彩铃目标用户的规则。当然,这样的方法跟数据挖掘方法

4、相比存在一定的不足,由于篇幅的限制,这个问题留给大家去思考。个人的观点:数据挖掘很大程度上来说更像是一个框架概念。它所使用的各种方法在这个概念形成之前已经普遍存在,例如统计学中的多元回归、Logistic回归,人工智能中的神经网络等。在上个世纪90年代,由于数据库的高速发展,企业对精确化营销的迫切需求,导致了数据挖掘这个概念和新名词的诞生。当然我们也不能简单的认为数据挖掘就是一个“新瓶装老酒”,毕竟,数据挖掘根据所解决的不同类型的问题,把包含统计学在内的各种方法进行了整合和重新设计,形成了一套新的数据分析方法论和框架,在这个框架内,源源不

5、断的很多人投入进来,这其中主要包含两类人:一类人是在更新设计新的算法;一类人是在不断的探索既有的方法在商业中的各种应用。一、数据挖掘主要解决的四类问题数据挖掘非常清晰的界定了它所能解决的几类问题。这是一个高度的归纳,数据挖掘的应用就是把这几类问题演绎的一个过程。下面让我们来看看它所解决的四类问题是如何界定的:n分类问题分类问题属于预测性的问题,但是它跟普通预测问题的区别在于其预测的结果是类别(如A、B、C三类)而不是一个具体的数值(如55、65、75……)。举个例子,你和朋友在路上走着,迎面走来一个人,你对朋友说:我猜这个人是个上海人,那

6、么这个问题就属于分类问题;如果你对朋友说:我猜这个人的年龄在30岁左右,那么这个问题就属于后面要说到的预测问题。商业案例中,分类问题可谓是最多的:给你一个客户的相关信息,预测一下他未来一段时间是否会离网?信用度是好/一般/差?是否会使用你的某个产品?将来会成为你的高/中/低价值的客户?是否会响应你的某个促销活动?……。有一种很特殊的分类问题,那就是“二分”问题,显而易见,“二分”问题意味着预测的分类结果只有两个类:如是/否;好/坏;高/低……。这类问题也称为0/1问题。之所以说它很特殊,主要是因为解决这类问题时,我们只需关注预测属于其中一

7、类的概率即可,因为两个类的概率可以互相推导。如预测X=1的概率为P(X=1),那么X=0的概率P(X=0)=1-P(X=1)。这一点是非常重要的。可能很多人已经在关心数据挖掘方法是怎么预测P(X=1)这个问题的了,其实并不难。解决这类问题的一个大前提就是通过历史数据的收集,已经明确知道了某些用户的分类结果,如已经收集到了10000个用户的分类结果,其中7000个是属于“1”这类;3000个属于“0”这类。伴随着收集到分类结果的同时,还收集了这10000个用户的若干特征(指标、变量)。这样的数据集一般在数据挖掘中被称为训练集,顾名思义,分类

8、预测的规则就是通过这个数据集训练出来的。训练的大概思路是这样的:对所有已经收集到的特征/变量分别进行分析,寻找与目标0/1变量相关的特征/变量,然后归纳出P(X=1)与筛选出来的相关特征/变量

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。