欢迎来到天天文库
浏览记录
ID:42791016
大小:2.90 MB
页数:65页
时间:2019-09-22
《商业分析第7章商业数据挖掘方法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、--商业数据的分析、挖掘和应用商业分析华东师范大学出版社第7章商业数据挖掘方法主要内容数据挖掘概论决策树关联规则聚类分析7.1数据挖掘概论产生概念技术及过程应用7.1.1数据挖掘的产生随着世界信息技术的迅猛发展,信息量也呈几何指数增长。特别是随着云时代的来临,海量数据发展到大数据(BigData)已日益明显,现在许多单位与组织在日常运营中生成、累积的各种数据,规模是如此庞大,以至于不能用G或T来衡量。例如,一天之中,互联网产生的全部内容可以刻满1.6亿多张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区
2、帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……(2011年数据)7.1.1数据挖掘的产生如何从巨量、复杂的数据中获取有用的信息,成为了信息技术研究领域的热门课题。在这样的背景下,数据挖掘技术诞生并成为了近年来的研究热点。机器学习、数据库技术和数理统计是数据挖掘的三个技术支柱。机器学习数据库技术数理统计7.1.2数据挖掘的概念从技术角度看:数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不
3、知道的、但又是潜在有用的信息和知识的过程。从商业角度看:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘是从海量数据中提取隐含在其中的有用信息和知识的过程。它可以帮助企业对数据进行微观、中观乃至宏观的统计、分析、综合和推理,从而利用已有数据预测未来,帮助企业赢得竞争优势。数据挖掘任务主要有很多种,常见的有监督学习(或称为分类学习)、无监督学习(或称为聚类分析)、关联规则挖掘、预测、时序挖掘和偏差分析等等。分类学习聚类分析关联规则预测时序模式偏差分析7
4、.1.3数据挖掘技术及过程一般来说,数据挖掘需要经历以下过程:确定挖掘对象(理解研究的业务领域)、收集数据(理解业务领域中的数据属性)、数据预处理(对获得的数据进行清洗等各种处理)、数据挖掘(用数据挖掘算法和模型来进行数据挖掘)和信息解释(对得到的数据挖掘模型进行评估,评估有效后再在实际环境中使用),在数据挖掘过程中如能配以可视化的方法,则可大幅度提高效果。7.1.3数据挖掘技术及过程图7-1.数据挖掘过程数据挖掘工具目前国际上广泛应用的数据挖掘工具有很多SASEnterpriseMinerSPSS公司的Clementine(被IBM
5、公司收购后改名为Modeler)SQLSever中的数据挖掘模块Waikato大学开发的Weka平台IBM公司的IntelligentMiner开源软件R语言……7.1.4数据挖掘应用数据挖掘应用场景数据挖掘在商业分析领域的一些应用如下:金融领域营销领域电子政务电信领域工业生产生物和医学……7.1.4数据挖掘应用数据挖掘应用场景——金融领域客户信用等级评估客户透支分析客户利润分析客户消费行为分析客户消费异常行为分析……7.1.4数据挖掘应用7.2决策树定义分类与作用常用算法剪枝7.2.1决策树定义理解什么是决策树,决策树有什么作用之前
6、,我们先给出一个决策树的基本结构。它的形状是一棵倒置的树,包括节点和分支。有三种类型的节点:父节点、内部节点和叶节点。图7-2.决策树示意图7.2.1决策树定义决策树(DecisionTree)是一种以实例为基础的归纳学习算法,是一种从无次序、无规则的训练样本集中推理出决策树表示形式的分类规则的方法,它提供了一种展示类似在什么条件下会得到什么值这类规则的方法。工作过程:图7-3.决策树工作过程7.2.2决策树分类与作用决策树主要应用于分类预测。分类预测的结果有定性和定量两种。例如,预测天气,定性有下雨或不下雨;定量则是下多少雨,具体的
7、数值。在实际应用中,我们将定性的分类预测称为分类,用来确定类别属性;定量的分类预测成为预测,用来预测具体的数值。分类是一种重要的数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器),该模型能把未知类别的样本映射到给定类别中的某一个。因此,决策树可以分为两类:分类决策树,简称分类树,实现对分类型输出变量的分类;回归决策树,简称回归树,完成对数值型输出变量的预测。7.2.2决策树常用算法决策树的两大核心问题:决策树的生长:在样本数据中选择哪一个属性作为根节点,然后如何分支,如何选择内部节点,直到生长出树
8、叶,即到达叶节点,这一系列过程可称为决策树的分枝准则,即具体算法;决策树的剪枝:防止决策树生长过于茂盛,无法适应实际应用的需要。7.2.2决策树常用算法决策树常用算法:基于信息论的方法:ID系列算法C4.5C5.0最小G
此文档下载收益归作者所有