商业智能技术的先锋:数据挖掘与数据仓库.ppt

商业智能技术的先锋:数据挖掘与数据仓库.ppt

ID:55723567

大小:196.50 KB

页数:50页

时间:2020-06-02

商业智能技术的先锋:数据挖掘与数据仓库.ppt_第1页
商业智能技术的先锋:数据挖掘与数据仓库.ppt_第2页
商业智能技术的先锋:数据挖掘与数据仓库.ppt_第3页
商业智能技术的先锋:数据挖掘与数据仓库.ppt_第4页
商业智能技术的先锋:数据挖掘与数据仓库.ppt_第5页
资源描述:

《商业智能技术的先锋:数据挖掘与数据仓库.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、商业智能技术的先锋: ---数据仓库与数据挖掘徐永春博士2011610尿布和啤酒在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售!但是这个奇怪的举措,却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁超市的真实案例,并一直为商家所津津乐道是什么让沃尔玛发现了尿布和啤酒之间的关系呢?正是通过对超市一年多的原始交易数据进行详细分析,他们发现了这一神奇组合。沃尔玛利用NCR数据挖掘工具对这些数据进行分析和挖掘,得到一个意外的发现:跟尿布一起购买最多的商品竟是啤酒!这个结果符合真实情况吗?是否有利用价值?沃尔玛

2、派出市场调查人员和分析师对此进行调查分析。调查结果揭示了一种隐藏在“尿布与啤酒”背后的美国人的行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%-40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。从此,沃尔玛各门店都“尿布和啤酒”,这一数据挖掘(datamining)的经典例子,告诉我们,面对混沌的未来,我们不是完全束手无策,我们是可以有所为的。其实,只要我们了解所有商业运作的各种因素,进一步监控这些因素并向有关

3、决策者们及时地提供相应信息。什么样是人性化的服务?想听一首歌,不必想好其歌名,到搜索引擎里去搜索、下载;而是输入现在的心情,比如“激昂”,播放器就自动播放出《男儿当自强》这样的歌曲,而且一首接着一首。想去旅游,不必苦思要去什么具体的城市,而是输入大概想法,比如“浪漫的周末度假”,就能马上看到十个建议:包括一家临海宾馆的情侣房、烛光晚餐、一套在周五晚起飞周日晚返归的机票。要完成这些人性化服务靠搜索引擎是不行的,得靠数据挖掘。现在,数据挖掘的各种应用离为我们提供上面这些真实服务已经越来越近了。内容提要数据挖掘于统计学数据挖掘基本概念数据挖

4、掘基本特征数据挖掘的其他主题数据挖掘与数据仓库数据挖掘与统计学数据挖掘分析海量数据许多数据库都不适合统计学分析需要数据挖掘:发现驱动(数据驱动)数据研究统计学:假设驱动(人为驱动)研究数据数据挖掘数据库技术统计学高性能计算人工智能机器学习可视化数据挖掘是多学科的产物数据挖掘是信息技术自然进化的结果数据库、数据仓库和Intenet等信息技术的发展。计算机性能的提高和先进的体系结构的发展。统计学和人工智能等方法在数据分析中的研究和应用。网络之后的下一个技术热点大量信息在给人们带来方便的同时也带来了一大堆问题:信息过量,难以消化信息真假

5、难以辨识信息安全难以保证信息形式不一致,难以统一处理数据丰富,但信息贫乏人类已进入一个崭新的信息时代数据库中存储的数据量急剧膨胀需要从海量数据库和大量繁杂信息中提取有价值的知识,进一步提高信息的利用率产生了一个新的研究方向:基于数据库的知识发现(KnowledgeDiscoveryinDatabase),以及相应的数据挖掘(DataMining)理论和技术的研究数据挖掘是从大量数据中提取或“挖掘”知识。知识是一种概念、规则、模式和规律等。通常,把数据看成是形成知识的源泉。数据挖掘过程模型是确保数据挖掘工作顺利进行的关键。典型的过程模型

6、有:(1)SPSS的5A模型——评估(Assess)、访问(Access)、分析(Analyze)、行动(Act)、自动化(Automate)。(2)SAS的SEMMA模型——采样(Sample)、探索(Explore)、修正(Modify)、建模(Model)、评估(Assess)。(3)跨行业数据挖掘过程标准CRISP-DM——目前CRISP-DM仍在建立之中。(4)此外,TwoCrows公司的数据挖掘过程模型,它与正在建立的CRISP-DM有许多相似之处。数据挖掘过程模型神经网络和支持向量机模型使用神经网络近来越来越受到人们的关

7、注,因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的。神经网络常用于两类问题:分类和回归。需特别指出的是,在一般情况下,统计学习理论和支持向量机(SVM)比一般的神经网络更有效,而且可将SVM看作是广义化的神经网络。其优点是,具有深厚的数学基础,算法可靠、推广能力强,适用于小样本数据集的知识(或规则)发现。具体案例:数据挖掘过程主要由三个部分组成,即数据整理、数据挖掘和结果的解释评估。如:(1)定义商业问题要想充分发挥数据挖掘的价值,必须要对目标有一个清晰明确的定义,即决定到底想干

8、什么。否则,很难得到正确的结果。(2)建立数据挖掘库数据准备工作大概要花去整个数据挖掘项目的50%-90%的时间和精力。一般来说,直接在公司的数据仓库上进行数据挖掘是不合适的,最好建立一个独立的数据集。建立数据挖掘库可分

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。