【管理精品】数据挖掘与bi借数据一双慧眼

【管理精品】数据挖掘与bi借数据一双慧眼

ID:29353049

大小:81.50 KB

页数:15页

时间:2018-12-18

【管理精品】数据挖掘与bi借数据一双慧眼_第1页
【管理精品】数据挖掘与bi借数据一双慧眼_第2页
【管理精品】数据挖掘与bi借数据一双慧眼_第3页
【管理精品】数据挖掘与bi借数据一双慧眼_第4页
【管理精品】数据挖掘与bi借数据一双慧眼_第5页
资源描述:

《【管理精品】数据挖掘与bi借数据一双慧眼》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、数据挖掘与BI借数据一双慧眼 2月19日上午10点至11点,我刊“数据挖掘与商业智能在线研讨会”于赛迪网网上会议中心如期举行。北京协和医院信息中心数据挖掘项目负责人闫世方、三九宜工生化股份有限公司信息中心主任刘灵芝、山东烟草专卖局信息中心技术负责人王海宁,人民大学统计与数据挖掘中心匡宏波博士,Sybase中国、NCR、石竹软件等公司的有关人,以及赛迪网网友,登录网上会议中心进行了研讨。探讨话题有:数据挖掘、商业智能的概念由来,如何开展数据挖掘等,以下为此次研讨内容的专题报道。  用户背景链接  北京协和医院开展数据挖掘工作的目的是为临床化

2、医疗管理,以及医院业务管理等提供支撑,并辅助领导决策。目前开始做数据挖掘方面的研究工作。  三九宜工生化股份有限公司在实施ERP后,总感觉ERP的作用未能充分发挥,在以下几个方面存在不足:1、库存物料储备量多少、安全库存值大小;2、物料采购的批量值;3、产品的计划成本与实际成本的差异分析;4、销售客户对象类型分析。因此他们打算开展数据挖掘项目。  山东烟草专卖局现在有开展数据挖掘项目的计划,但还没有开始做。他们打算从简单的分析做起,随着数据量增加,逐步完善挖掘功能。目前主要是想通过对销售数据和客户信息的分析,为企业决策提供参考数据。  专

3、家观点  “数据挖掘”的确是热起来了。在Google上采用完整模式搜索“数据挖掘”,得到了27,700余项查询结果;若是搜索“Datamining”,居然得到了122,000余项。与此同时,一些关联词汇也冒出来了,“数据仓库”,“商务智能(BI)”就是其中两个,大有后来居上之势。  真是“乱花渐欲迷人眼”。那么,应该如何完整地理解“数据挖掘”?“数据挖掘”的理论基础是什么?企业应该如何开展“数据挖掘”项目?  统一概念之乱  图1表示的就是:现实中人类的社会和经济活动,总可以用数据(数字或者符号)来描述和记录;经过对这些数据的分析,就会产

4、生信息(知识);用这些信息(知识)来指导实践,就可以做出相应的决策;这些决策又引发了新一轮的社会和经济活动。循环往复,生息不止。  数据仓库(DW)、商务智能(BI)和知识发现(KDD)又分别是什么呢?如图2所示。  为什么图2中的部分线要画成虚线呢?有两个含义。第一是因为上述概念诞生初始,在DM的价值链上还是有所侧重的,数据仓库重在“建仓”,数据挖掘和知识发现重在“加工”,商务智能重在“应用”。虚线表示曾经拥有。第二,如果不这样画,理论界、应用厂商会不答应,因为不管原来是做数据库的(IBM,Sybase,NCR,Oracle,Micro

5、soft,etc),还是做统计分析软件的(SAS,Statistica,SPSS,etc),甚至是做报表工具的(BO,Brio,Cognos,etc),都拼命在延伸自己的价值链。  所以,干脆叫数据管理(也就是DM)好了,一统天下。  至于ERP,CRM等,说白了,还是个DM,只不过限制在了具体的社会经济活动上罢了。  六种挖掘武器  数据仓库的建设和数据挖掘建模是DM价值链上的两大技术要点。数据挖掘从狭义的角度讲,只管从数据到知识这一段。俗话说:“没有金刚钻,不揽瓷器活”。作为一个数据挖掘人员的起码要求,就是充分掌握各种挖掘工具的性能、

6、局限、应用条件等。  一般说来,数据挖掘有如下六件武器:描述统计、关联和相关、分类和聚类、预测、优化、结构方程模型。简要说明如下:  (1)描述统计(Descriptivestatistics)  描述统计是数据挖掘的入门兵器,直观、简单,高手常常用来摘叶飞花。描述统计包括平均数、中位数、众数、分位数、百分比、求和等。描述统计经常和统计图(如直方图,条形图,线图,散点图,茎叶图等)配合使用。目前应用最为广泛的OLAP,究其本质就是针对不同的数据群在做描述统计。  描述统计的应用十分广泛:比如当月公司利润总额,比较不同区域的销售量等等。  

7、(2)关联和相关(AssociationandCorrelation)  关联规则从本质上讲是条件概率:A发生时,B同时也出现的概率是多大?只要B离50%较远,就是有意义的。  关联规则的一个典型的现代应用是“啤酒加尿布”。在应用关联规则时还需要多考虑的一个问题是:这条规则遵循者的数量怎样?通俗的说就是,如果超市的尿布只有一个人买(假设),但是这人每次买尿布时,一定会买啤酒。尽管这条规则很可信(100%),但是意义却不大。  在应用关联规则时,要注意两点:关联不一定是因果,关联是有方向的。  相关也是考虑两个事物之间的关系,典型的度量方法

8、有Pearson相关系数和Kendall相关系数。  (3)分类和聚类  分类和聚类是最常用的技术。  一般说来,分类的方法有三种:回归、决策树、神经网络。  聚类和分类的最大区别就是,分类是

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。