哪些问题是数据分析时常出现的

哪些问题是数据分析时常出现的

ID:44070458

大小:43.55 KB

页数:6页

时间:2019-10-18

哪些问题是数据分析时常出现的_第1页
哪些问题是数据分析时常出现的_第2页
哪些问题是数据分析时常出现的_第3页
哪些问题是数据分析时常出现的_第4页
哪些问题是数据分析时常出现的_第5页
资源描述:

《哪些问题是数据分析时常出现的》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、哪些问题是数据分析时常出现的1DataMining和统计分析有什么不同?®要去区分DataMining和Statistics的差异其实是没有太大意义的。一般将之定义为DataMining技术的CART、CHAID或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,DataMining有相当大的比重是山高等统计学中的多变量分析所支掠。但是为什么DataMining的出现会引发各领域的广泛注意呢?主要原因在相较于传统统计分析而言,DataMining有下列几项特性:1•处理大量实际数据更强势,且无须A专业的统计背景去使用

2、DataMining的工具;2.数据分析趋势为从人型数据库抓取所需数据并使用专属计算机分析软件,DataMining的匸具更符合金业需求;3.纯就理论的基础点来看,DataMining和统计分析有应用上的差别,毕竞DataMiningB的是方便企业终端用户使用而非给统计学家检测用的。2数据仓库和数据挖掘的关系为何?若将DataWarchousing(数据仓库)比喻作矿坑,DataMining就是深入矿坑采矿的工作。毕竟DataMining不是一种无中生有的魔术,也不是点石成金的炼金术,若没有够丰富完整的数据,是很难期待DataMining能挖掘

3、出什么有意义的信息的。耍将庞大的数据转换成为有用的信息,必须先有效率地收集信息。随着科技的进步,功能完善的数据库系统就成了最好的收集数据的工具。数据仓库,简单地说,就是搜集来白其它系统的有用数据,存放在一整合的储存区内。所以其实就是一个经过处理整合,且容量特别大的关系型数据库,用以储存决策支持系统(DesignSupportSystem)所需的数据,供决策支持或数据分析使用。从信息技术的角度来看,数据仓库的H标是在组织中,在E确的时间,将正确的数据交给止确的人。许多人对于DataWarehousing和DataMining时常混淆,不知如何分辨

4、。其实,数据仓库是数据库技术的一个新主题,利用计算机系统帮助我们操作、计算和思考,让作业方式改变,决策方式也跟着改变。数据仓库本身是一个非常人的数据库,它储存着由组织作业数据库中整合而来的数据,特别是指事务处理系统OLTP(On・LincTransactionalProcessing)所得来的数据。将这些整合过的数据置放于数据昂哭中,而公司的决策者则利用这些数据作决策;但是,这个转换及整合数据的过程,是建立一个数据仓库最人的挑战。因为将作业中的数据转换成有用的的策略性信息是整个数据仓库的重点。综上所述,数据仓库应该具有这些数据:整合性数据(in

5、tegrateddata)、详细和汇总性的数据(detailedandsummarizeddata)、历史数据、解释数据的数据。从数据仓库挖掘出对决策有用的信息与知识,是建立数据仓库与使用DataMining的最大冃的,两者的本质与过程是两回事。换句话说,数据仓库应先行建立完成,Datamining才能有效率的进行,因为数据仓库本身所含数据是干净(不会有错误的数据参杂其中)、完备,且经过整合的。因此两者关系或许可解读为DataMining是从巨大数据仓库中找出有用信息的一种过程与技术。3OLAP能不能代替DataMining?所谓OLAP(On

6、lineAnalyticalProcess)意指由数据库所连结出來的在线分析处理程序。有些人会说:「我已经有OLAP的工具了,所以我不需要DataMiningoJ事实上两者间是截然不同的,主要差异在于DataMining用在产生假设,OLAP则用于查证假设。简单来说,OLAP是由使用者所主导,使用者先有一些假设,然后利用OLAP来查证假设是否成立;而DataMining则是用來帮助使用者产生假设。所以在使用OLAP或其它Query的工具时,使用者是白己在做探索(Exploration),但DataMining是用工具在帮助做探索。举个例了來看,

7、一市场分析师在为超市规划货品架柜摆设时,nJ'能会先假设婴儿尿布和婴儿奶粉会是常被一起购买的产品,接着便可利用0LAP的工具去验证此假设是否为真,又成立的证据有多明显;但DataMining则不然,执行DataMining的人将庞大的结帐数据整理后,并不需要假设或期待可能的结果,透过Mining技术可找出存在于数据中的潜在规则,于是我们可能得到例如尿布和啤酒常被同时购买的意料外之发现,这是OLAP所做不到的。DataMining常能挖掘出超越归纳范I韦I的关系,但OLAP仅能利用人工查询及可视化的报表來确认某些关系,是以DataMining此种

8、H动找出M至不会被怀疑过的数据模型与关系的特性,事实上已超越了我们文章、教育、想彖力的限制,OLAP可以和DataMining互补,但这项特性是Dat

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。