第九讲 数据挖掘与决策支持

第九讲 数据挖掘与决策支持

ID:42187293

大小:1.62 MB

页数:50页

时间:2019-09-10

第九讲  数据挖掘与决策支持_第1页
第九讲  数据挖掘与决策支持_第2页
第九讲  数据挖掘与决策支持_第3页
第九讲  数据挖掘与决策支持_第4页
第九讲  数据挖掘与决策支持_第5页
资源描述:

《第九讲 数据挖掘与决策支持》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据挖掘华师大MBA资料2010王仁武1、什么是数据挖掘?数据挖掘的出现数据挖掘数据库越来越大有价值的知识可怕的数据数据挖掘的出现数据爆炸,知识贫乏苦恼:淹没在数据中;不能制定合适的决策!数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府POS.人口统计生命周期技术是一个驱动因素更大,更便宜的存储器--磁盘密度以Moore’slaw增长“每次18个月增长一倍”--存储器价格飞快下降更快,更便宜的信息处理器--分析更多的数据--适应更多复杂的模型--引起更多查询技术--激起更强的可视化技术什么是数据挖掘?数据挖掘的定义SAS研究所(1

2、997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。Handetal(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。数据挖掘的定义数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义(1)数据源必须是真实的、大量的、含噪声的;(2)发现的是用户感兴趣的知识;(3)发现的知识要可接受、可理解、

3、可运用;(4)并不要求发现放之四海皆准的知识,仅支持特定的发现问题。知识发现过程定义:半自动或自动地从海量数据中发现模式,相关性,变化,反常规律性,统计上的重要结构和事件.是统计学、数据库技术和人工智能技术的综合。特点:半自动或自动提取预测大数据库什么是数据挖掘2、数据挖掘依赖的基础统计学机器学习数据库高效率的计算统计学Gauss,Fisher,和--最小二乘法,最大似然法--一些基本原理的发展数学时代--1950`s:Neyman等数学家独领风骚计算时代--自从1960`s平稳增长--1970`s:EDA,Bayesianestimation,flexiblemodels,E

4、M,etc--逐渐意识到计算机在数据分析中的能力和作用计算机科学模式识别和人工智能(AI)--集中于感官问题,如:语言识别,图像识别--1960`s:统计方法与非统计方法的分流--应用统计学与工程学的交叉如:统计图像分析机器学习和神经网络--1980`s非统计学习方法的失败--flexiblemodels的出现,如:树,网络--应用统计学与学习方法的交叉数据挖掘技术的出现直接演化的结果:--AI和机器学习*1989KDD工作组2000ACMSIGKDD工作组*集中于自动发现--数据库研究*大型数据组*SIGMMODassociationrules,scalablealgorithms

5、--数据管理者*如何处理数据*面向客户*工业占主导的,面向应用必然性数据挖掘不同于传统上的统计学前者:发现驱动(数据驱动)数据研究后者:假设驱动(人为驱动)研究数据3、数据挖掘都干了些什么?英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。。。。。。使直邮的回应率提高了100%数据挖掘都干了些什么?GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。。。。。。通过数据挖掘的方法使库存成本比原来减少了3.8%数据挖掘都干了些什么?汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。。。。。。营销费用减少了30%数据挖掘都干了些什么?美国

6、国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象。。。。。。发现可能存在欺诈的交易,进行深入调查,节约了大量的调查成本数据挖掘都干了些什么?美国国内税务局需要提高对纳税人的服务水平。。。。。。合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务通过数据挖掘您可以发现最有价值的客户通过数据挖掘您可以使组合销售更有效率通过数据挖掘您可以留住那些最有价值的客户通过数据挖掘您可以用更小的成本发现欺诈现象电信:流失银行:聚类(细分),交叉销售百货公司/超市:购物篮分析(关联规则)保险:细分,交叉销售,流失(原因分析)信用卡:欺诈探测,细分电子商务:网站日志分析税务部门:偷漏税行为探

7、测警察机关:犯罪行为分析医学:医疗保健数据挖掘应用领域数据挖掘效益分析(直邮)(BigBank&CreditCardCompany)目的:发现新客户数据挖掘以前数据挖掘以后差别发信的数量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)响应的数量10,0009,000(1,000)每个响应的毛利$125$125$0总毛利$1,250,000$1,125,000($125,0

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。