欢迎来到天天文库
浏览记录
ID:48224642
大小:718.00 KB
页数:100页
时间:2020-01-18
《数据挖掘概述.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、数据挖掘概述IntroductiontoDataMining内容提纲数据挖掘介绍数据挖掘系统数据挖掘算法数据挖掘介绍数据挖掘的由来数据挖掘的应用基本概念区分数据挖掘基本内容数据挖掘基本特征数据挖掘的其他主题数据挖掘的由来背景网络之后的下一个技术热点数据爆炸但知识贫乏从商业数据到商业信息的进化背景人类已进入一个崭新的信息时代数据库中存储的数据量急剧膨胀需要从海量数据库和大量繁杂信息中提取有价值的知识,进一步提高信息的利用率产生了一个新的研究方向:基于数据库的知识发现(KnowledgeDiscoveryinDatabase),以及相应的数据挖掘(DataMining
2、)理论和技术的研究随着大数据库的建立和海量数据的不断涌现,必然提出对强有力的数据分析工具的迫切需求。但现实情况往往是“数据十分丰富,而信息相当贫乏。”快速增长的海量数据收集、存放在大型数据库中,没有强有力的工具,理解它们已经远远超出人的能力。因此,有人称之为:“数据坟墓”。由于专家系统工具过分依赖用户或专家人工地将知识输入知识库中,而且分析结果往往带有偏差和错误,再加上耗时、费用高,故不可行。数据矿山信息金块数据挖掘工具网络之后的下一个技术热点大量信息在给人们带来方便的同时也带来了一大堆问题:信息过量,难以消化信息真假难以辨识信息安全难以保证信息形式不一致,难以统
3、一处理数据爆炸但知识贫乏随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。从商业数据到商业信息的进化进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBMCDC提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS)结
4、构化查询语言(SQL)ODBCOracleSybaseInformixIBMMicrosoft在记录级提供历史性的、动态数据信息数据仓库决策支持(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)多维数据库数据仓库PilotComshareArborCognosMicrostrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法多处理器计算机海量数据库PilotLockheedIBMSGI其他初创公司提供预测性的信息数据挖掘数据库技术统计学高性能
5、计算人工智能机器学习可视化数据挖掘是多学科的产物数据挖掘的应用电信:流失银行:聚类(细分),交叉销售百货公司/超市:购物篮分析(关联规则)保险:细分,交叉销售,流失(原因分析)信用卡:欺诈探测,细分电子商务:网站日志分析税务部门:偷漏税行为探测警察机关:犯罪行为分析医学:医疗保健英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。。。。。。使直邮的回应率提高了100%电信GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。。。。。。通过数据挖掘的方法使库存成本比原来减少了3.8%零售商店美国国内税务局需要提高对纳税人的服务水平。。。。
6、。。合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务税务局银行金融事务需要搜集和处理大量的数据,由于银行在金融领域的地位、工作性质、业务特点以及激烈的市场竞争决定了它对信息化、电子化比其它领域有更迫切的要求。利用数据挖掘技术可以帮助银行产品开发部门描述客户以往的需求趋势,并预测未来。美国商业银行是发达国家商业银行的典范,许多地方值得我国学习和借鉴。数据挖掘在银行领域的应用美国银行家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9%。分析客户使用分销渠道的情况和分销渠道的容量;建立利润评测模型;客户关系优化;风险控制等Mellon银
7、行使用数据挖掘软件提高销售和定价金融产品的精确度,如家庭普通贷款。美国Firstar银行使用数据挖掘工具,根据客户的消费模式预测何时为客户提供何种产品。汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。。。。。。营销费用减少了30%银行基本概念区分数据挖掘与知识发现数据挖掘和数据仓库数据挖掘与信息处理数据挖掘与联机分析数据挖掘与人工智能、统计学数据挖掘和知识发现数据挖掘(DataMining)从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与之相似的概念称为知识发
8、现。知识发
此文档下载收益归作者所有