《数据挖掘概述》ppt课件

《数据挖掘概述》ppt课件

ID:24811098

大小:739.00 KB

页数:43页

时间:2018-11-16

《数据挖掘概述》ppt课件_第1页
《数据挖掘概述》ppt课件_第2页
《数据挖掘概述》ppt课件_第3页
《数据挖掘概述》ppt课件_第4页
《数据挖掘概述》ppt课件_第5页
资源描述:

《《数据挖掘概述》ppt课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第六章数据挖掘概述本章内容数据挖掘的由来数据挖掘的定义数据挖掘的基本概念数据挖掘的主要功能数据挖掘模型和实现流程数据挖掘应用数据挖掘的由来网络之后的下一个技术热点数据爆炸但知识贫乏支持数据挖掘技术的基础从商业数据到商业信息的进化网络之后的下一个技术热点网络时代面临的信息问题:信息过量,难以消化;信息真假难以辨识;信息安全难以保证;信息形式不一致,难以统一处理。“要学会抛弃信息”数据爆炸但知识贫乏数据库的容量已达上万亿水平(T)--1,000,000,000,000个字节全球信息量以惊人的速度急剧增长--据估计,每二十个月将增加一倍。许多组织机构的IT系统中都收集了大量的数据支持数据挖掘

2、技术的基础激发了数据挖掘的开发、应用和研究的兴趣的四个主要技术理由:超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录;强大的多处理器计算机。例如更快和更大的计算能力和并行体系结构;海量数据搜索,对巨大量数据的快速访问;数据挖掘算法。从商业数据到商业信息的进化进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS),结构化查询语言(SQL)、Sybase、Informix、IBMOracle

3、、Sybase、Informix、IBM、Microsoft在记录级提供历史性、动态数据信息数据仓库; 决策支持(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库Pilot、Comshare、Arbor、Cognos、Microstrategy在各种层次上提供回溯的、动态的数据信息数据挖掘 (正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据库Pilot、Lockheed、IBM、SGI、其他初创公司提供预测性的信息数据挖掘(DataMining)的定义数据挖掘是从大量的、不

4、完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。〔技术角度的定义〕数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。〔商业角度的定义〕数据挖掘相近的同义词包括:数据融合、数据分析和决策支持等。数据挖掘与其他科学的关系DataMiningDatabaseTechnologyStatisticsOtherDisciplinesInformationScienceMachineLearningVisualization实施数据挖掘的目

5、的不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此需要从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也由此而得名。数据挖掘的数据源与以前相比有了显著的改变;数据是海量的;数据有噪声;数据可能是非结构化的;传统的数据分析方法基于假设驱动的:一般都是先给出一个假设然后通过数据验证数据挖掘在一定意义上是基于发现驱动的:模式都是通过大量的搜索工作从数据中自动提取出来。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息

6、或知识,挖掘出的信息越是出乎意料,就可能越有价值。数据挖掘与传统数据分析方法区别数据挖掘和数据仓库数据挖掘和OLAP完全不同的工具,基于的技术也大相径庭OLAP基于用户假设。whathappened〔查询和报表工具是告诉你数据库中都有什么〕whatnext〔OLAP更进一步告诉你下一步会怎么样〕whatif〔如果我采取这样的措施又会怎么样〕数据挖掘本质上是一个归纳的过程,不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。数据挖掘和OLAP有一定的互补性。基本概念数据:是指一个有关事实F的集合(如学生档案数据库中有关学生基本情况的各条记录),用来描述事物有关方面的信

7、息。一般而言,这些数据都是准确无误的。信息:是事物运动的状态和状态变化的方式。知识人们实践经验的结晶且为新的实践所证实的;是关于事物运动的状态和状态变化的规律;是对信息加工提炼所获得的抽象化产物。知识的形式可能是模式、关联、变化、异常以及其他有意义的结构。主要功能1.概念/类别描述(Concept/ClassDescription)概念/类别描述是指对数据集做一个简洁的总体性描述并/或描述它与某一对照数据集的差别。例1:我们收集移动电话费月消费

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。