欢迎来到天天文库
浏览记录
ID:51743147
大小:397.50 KB
页数:38页
时间:2020-03-30
《数据仓库与挖掘第五章_数据挖掘概述.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第五章数据挖掘的概述本章内容5.1数据挖掘的起源5.2数据挖掘的任务5.3医学与数据挖掘数据挖掘的起源网络之后的下一个技术热点数据爆炸但知识贫乏支持数据挖掘技术的基础从商业数据到商业信息的进化网络之后的下一个技术热点网络时代面临的信息问题:信息过量,难以消化;信息真假难以辨识;信息安全难以保证;信息形式不一致,难以统一处理。“要学会抛弃信息”数据爆炸但知识贫乏数据库的容量已达上万亿水平(T)--1,000,000,000,000个字节全球信息量以惊人的速度急剧增长--据估计,每二十个月将增加一倍。许多组织机构的IT系统中都收集了大量的数据目前的数据库系统虽然可以高效地实现数
2、据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。为了充分利用现有信息资源,从海量数据中找出隐藏的知识,数据挖掘技术应运而生并显示出强大的生命力。如何从一棵棵树木了解整个森林?从数据矿山中找到蕴藏的知识金块?这是我们该考虑的问题!啤酒尿不湿案例著名的“啤酒尿布”案例:美国加州某个超级卖场通过数据挖掘发现,下班后前来购买婴儿尿布的男顾客大都购买啤酒。于是经理当机立断,重新布置货架,把啤酒类商品布置在婴儿尿布货架附近,并在二者之间放置佐酒食品,同时还把男士日常用品就近布置。这样,上述几种商品的销量大增。支持数据挖掘技术的基础激发
3、了数据挖掘的开发、应用和研究的兴趣的四个主要技术理由:超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录;强大的多处理器计算机。例如更快和更大的计算能力和并行体系结构;海量数据搜索,对巨大量数据的快速访问;数据挖掘算法。从商业数据到商业信息的进化进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBM提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS),结构化查询语言(SQL)、Sybase、Informix、IBMOracle、Syba
4、se、Informix、IBM、Microsoft在记录级提供历史性、动态数据信息数据仓库;决策支持(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库Oracle、IBM、Microsoft在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据库IBM、其他公司提供预测性的信息数据挖掘(DataMining)的定义数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的
5、、但又是潜在有用的信息和知识的过程。〔技术角度的定义〕数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。〔商业角度的定义〕数据挖掘相近的同义词包括:数据融合、数据分析和决策支持等。数据挖掘(DataMining)的定义数据挖掘与其他科学的关系DataMiningDatabaseTechnologyStatisticsOtherDisciplinesInformationScienceMachineLearningVisualization数据挖掘与其他科学的关系数据挖掘作为一门新兴的交
6、叉学科,涉及数据库系统、数据仓库、统计学、机器学习、可视化、信息检索和高性能计算等诸多领域。此外,还与神经网络、模式识别、空间数据分析、图像处理、信号处理、概率论、图论和归纳逻辑等等领域关系密切。近几年,人们逐渐发现数据挖掘中有许多工作都是由统计方法来完成的。甚至有些人(尤其是统计学家)认为数据挖掘是统计学的一个分支,当然大多数人(包括绝大多数数据挖掘研究人员)并不这么认为。统计学和数据挖掘的目标非常相似,而且数据挖掘中的许多算法也源于数理统计,统计学对数据挖掘发展的贡献功不可没。实施数据挖掘的目的不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。
7、所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此需要从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也由此而得名。数据挖掘的数据源与以前相比有了显著的改变;数据是海量的。数据挖掘出现的背景是“数据爆炸但知识贫乏”,它要处理的数据量已经达到了“太”(万亿)级以上,比传统数据分析方法所处理的数据量超出几个乃至十几个数量级。对于如此大规模的数据量,传统的数据分析方法可能根本不能处理,即使能够处理,效率也是必须考虑的严重问题。因此需要对原有的
此文档下载收益归作者所有