欢迎来到天天文库
浏览记录
ID:37419619
大小:2.04 MB
页数:73页
时间:2019-05-12
《应用SASEM进行数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、应用SAS/EM进行数据挖掘2003-04-16赛仕软件研究所(上海)有限公司议程数据挖掘概述SAS数据挖掘项目方法论及工具SAS/EM简介Workshop企业决策支持信息系统OLTP数据仓库统计分析数据挖掘决策支持企业知识DWSolutionDM&AnalysisSolutionApplicationforC/S&B/SCBISolution1stQtr2ndQtr3rdQtr4thQtrPowerPlayFileEditDataValuesDisplayTextLegendLocation1992AllProductsAgegroupsRevenue($000)
2、OLAP查询报表什么是数据挖掘?定义:从海量的数据库中选择、探索、识别出有效的、新颖的、具有潜在效用的乃至最终可理解的模式以获取商业利益的非平凡的过程-Fayyad,Piatetsky-Shapiro特征:处理海量的数据;揭示企业运作中的内在规律;为企业运作提供直接决策分析,并为企业带来巨大经济效益。待分析数据数据仓库处理后数据模式变换后数据知识Source:”FromDataMiningtoKnowledgeDiscovery:AnOverview”,AdvancesinKnowledgeDiscoveryandDataMining,AAAIPress/TheMI
3、TPress.数据抽取数据预处理数据挖掘数据变换解释评价数据挖掘全过程数据挖掘涉及领域神经计算数据库知识发现数据挖掘统计学模式识别机器学习人工智能数据挖掘算法(按有无目标变量)有监督算法无监督算法(有目标变量)(无目标变量)传统回归无神经网络决策树逻辑/概率回归决策树聚类神经网络神经网络判别分析基于记忆的推理决策树主成分分析聚类关联/序列分析连接分析因子分析预测分类探索关联①预测用过去的数据预测未来发生什么预测未来发生的可能性历史数据预测算法-神经元网络-决策树-回归②描述用过去的数据描述现在发生了什么描述现在已经发生的规律历史数据描述算法-聚类-关联数据挖掘算法(
4、按分析目的)回归算法:线性回归、逻辑回归、概率回归统计方法:主成分分析、因子分析、判别分析等关联算法:关联模式、序列模式、连接分析等聚类算法:Cluster、SOM/Kohonen神经元网络:MLP、RBF决策树:CHAID、CART、C4.5、C5.0数据挖掘算法x20.00.20.40.60.81.0x10.00.20.40.60.81.0x20.00.20.40.60.81.0x10.00.20.40.60.81.0使用一元二次项使用简单线性①预测型–回归希望预测“绿点”在哪些情况下发生以及发生的概率数据挖掘常用算法Time<13yesno70%9663%ra
5、tio<.39time<10ratio<8410359%①预测型–决策树希望预测“绿点”在哪些情况下发生以及发生的概率QuotedpriceLowerlimitprice(ratio)Time00.20.40.60.8910111315数据挖掘常用算法timemethod#oforderratio#ofordereditemsY1=f1(x).Y2=f2(x).Y3=f3(x).Y=f1(x)+f2(x)+f3(x)数据挖掘常用算法①预测型–神经元网络希望预测“绿点”在哪些情况下发生以及发生的概率CombinationADACCAB&CDSupport2/5
6、2/52/51/5Confidence2/32/32/41/3ABCACDBCDADEBCE②描述型–关联了解客户购买哪些产品组合数据挖掘常用算法cluster4cluster3cluster1cluster2cluster5②描述型–聚类把具有相似行为的客户分到一群QuotedamountTotalamountQuotedPriceAveragePrice数据挖掘常用算法议程数据挖掘概述SAS数据挖掘项目方法论及工具EM简介WorkshopSAS数据挖掘项目方法论反复挖掘数据(SEMMA)定义业务问题考察业务情况提出业务问题考察数据可用性制定业务计划选择数据挖掘
7、方法探索(E)调整(M)建模(M)评估(A)抽样(S)系统环境评估评估系统环境评估企业准备情况评估IT环境选择软硬件环境规划实施体系结构数据准备创建数据挖掘环境检查和校验数据准备数据模型实施设计模型集成的体系结构生成管理和业务报告清理数据使其可用把模型应用于生产回顾与评价回顾模型对企业生产的效果回顾投资回报回顾模型的性能企业化经典统计数据分析工具统计分析:STAT,LAB,INSIGHT计量经济学与时间序列分析:ETS运筹优化:OR质量控制与质量提高:QC矩阵编程语言:IML图形与分析工具:GRAPHThinClient:EnterpriseGuide数据挖掘工
此文档下载收益归作者所有