资源描述:
《数据挖掘与决策支持》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、MBA资料数据挖掘与决策支持本讲主要内容1、数据挖掘简介2、数据挖掘依赖的基础3、数据挖掘的应用案例4、数据挖掘技术5、数据挖掘应用系统DataMining资料采矿1、数据挖掘简介可怕的数据有价值的知识数据挖掘数据库越来越大数据挖掘的出现苦恼:淹没在数据中;不能制定合适的决策!数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府POS.人口统计生命周期数据爆炸,知识贫乏数据挖掘的出现更大,更便宜的存储器--磁盘密度以Moore’slaw增长“每次18个月增长一倍
2、”--存储器价格飞快下降更快,更便宜的信息处理器--分析更多的数据--适应更多复杂的模型--引起更多查询技术--激起更强的可视化技术技术是一个驱动因素数据挖掘的定义SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。Handetal(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。数据挖掘的定义数据挖掘(DataMining)就是从大量的
3、、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义(1)数据源必须是真实的、大量的、含噪声的;(2)发现的是用户感兴趣的知识;(3)发现的知识要可接受、可理解、可运用;(4)并不要求发现放之四海皆准的知识,仅支持特定的发现问题。2、数据挖掘依赖的基础统计学机器学习模式识别和人工智能(AI)机器学习和神经网络数据库高效率的计算数据挖掘不同于传统上的统计学前者:发现驱动(数据驱动)数据研究后者:假设驱动(人为驱动)研究数据
4、3、数据挖掘应用案例及功能英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。。。。。。使直邮的回应率提高了100%汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。。。。。。营销费用减少了30%美国国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象。。。。。。发现可能存在欺诈的交易,进行深入调查,节约了大量的调查成本数据挖掘功能发现最有价值的客户使组合销售更有效率留住那些最有价值的客户用更小的成本发现欺诈现象数据挖掘应用领域电信:流失银行:聚类(细分),交叉销售百货
5、公司/超市:购物篮分析(关联规则)保险:细分,交叉销售,流失(原因分析)信用卡:欺诈探测,细分电子商务:网站日志分析税务部门:偷漏税行为探测警察机关:犯罪行为分析医学:医疗保健4、数据挖掘技术统计方法回归分析、聚类分析机器学习方法决策树、贝叶斯、遗传算法神经网络方法前向神经网络、自组织神经网络数据库方法OLAP决策树信息增益:被定义为原始分割的熵与划分以后各分割的熵累加得到的总熵之间的差。信息增益是指划分前后进行正确预测所需的信息量之差。选择具有最高信息增益的属性作为当前节点的测试属性。信息获利(Informati
6、onGain)若分类标记(Y)分为(成功、失败)两种,X为预测变项(类别属性;k类),n为总样本数(n1为总样本数中具成功标记的个数),经由X变项将样本分类后mi为X=i类中的总样本个数(mi1为X=i类中具成功标记的个数)。根据变项X将n个样本分为m1,m2,…,mk的信息获利为:Gain(X)=I(n,n1)-E(X),其中I(n,n1)=-((n1/n)log2(n1/n)+(1-n1/n)log2(1-n1/n))E(X)=(m1/n)*I(m1,m11)+(m2/n)*I(m2,m21)+…(mk/n)
7、*I(mk,mk1)决策树示例关联规则关联规则是数据挖据的一个重要分支,发现形如“如果〈条件〉,那么〈结论〉”的规则的方法。关联的意义在于一次交易中(数据库中的一条记录)存在X项目,则该交易中也存在Y项目。通常简写为X=〉Y,X称为关联规则的前件,Y称为关联规则的后件,=〉称为关联操作。buys(x,“computer”)=>buys(x,“finacial_management_software”)age(“30..40”)∧income(“42000..50000”)=>buys(x,“high_resolut
8、ion_TV”)布尔关联规则,量化关联规则,单维规则,多维关联,多层关联规则,单层关联规则age(“30..40”)=>buys(x,“IBMcomputer”)age(“30..40”)=>buys(x,“computer”)关联规则的两个重要指标置信度或正确率(可信度)可以定义为:覆盖率(支持度)可以定义为:关联规则示例前件后件置信度支持度百吉饼奶油干酪