欢迎来到天天文库
浏览记录
ID:47304716
大小:41.50 KB
页数:5页
时间:2019-08-20
《数据挖掘介绍》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、一.关键词1.DM(DataMining),DW(DataWarehouse),OLAP,BI二.数据库已经成为收集和分布信息的系统的基础。数据采集目的在于此后根据数据库内容进行正确决策。这些海量数据的深层隐藏的是很多的商业模式(Pattern),规则(Rules),这些隐藏的“商业知识”对于当前的数据拥有者来说意义非凡,因此他们可能预测整个集团未来的商业策略,市场开发计划,以及为公司带来新的盈利点,而要把这些目前还隐藏在大量看似无关联的数据背后的“知识”挖掘出来需要使用专门的统计学或测量方法。三.什么是数据挖掘下面是一些
2、“前人”对数据挖掘的定义:1.“挖掘”出数据中隐藏的模式,趋势,关系的过程(Groth)2.通过自动或半自动的方式在海量数据中发现有用的模式,规则的过程(Beryy&Linoff)3.分析普通的数据(通常是海量的)来发现数据之间比较稳定地关系,以易于理解的方式将数据总结出来向数据所有者提供有价值的决策支持。(Hand,Mannila&Smyth)4.在不需要人或很少地手工干预下通过可行地计算机技术来挖掘开采数据,对数据进行分析(Wegman)5.从大量的数据库中抽取出此前还没发现的有效实用地的信息,并且此后使用此信息来帮助
3、制定关键的商业决策的过程(Cabenaetal)四.在做数据挖掘之前我们需要做哪些工作?1.大量的数据准备(Case,数据挖掘的事例)(一般应该是108-1012Bytes,也就是百M到TB级别)u103=1Ku106=1Mu109=1Gu1012=1T2.数据要是多维的(数据挖掘的变量)一般是某个数据要有10到104个属性,也就是同一个数据可能从几个不同的角度来观察五.为什么需要数据挖掘?1.目前只有很小一部分(通常是5%到10%)的数据曾经被分析使用过,其它的数据在Insert到数据库之后就很少再被查看分析过。2.数据
4、也许从来没有被分析过,但是当前数据管理者由于害怕在将来这些数据可能会用到,为了不错过将来的使用还是会源源不断地将这些数据收集起来。这样话数据库只会是越来越大,在其中查找有用的信息时的效率会越来越低。六.Huber-Wegman数据集大小分类法描述数据大小(字节)存储模式极小102纸小104一叠纸中106一张软盘大108硬盘很大1010多个硬盘极大1012磁带海量1015分布式存储六.现状a)最近几十年,许多公司组织花费了大量的资源用于构建及维护资讯数据库,包括开发大规模数据仓库b)通常情况下,现有的数据不能通过常规的分析方
5、式分析,原因可能有许多丢失不全的记录也可能是数据是以定量的方式而非定质的形式存在的c)在大多数情况下,当前数据库中的信息由于不能方便地访问分析而没有得到足够地重视估或者没有充分使用。d)一些数据库增长得太快以至于连系统管理员也经常不清楚系统中哪些信息可以用来处理当前手头的问题,以及系统中的数据与当前手头上的问题之间的关系。e)如果为公司组织提供一种方法在这些大数据库中“挖掘”出重要的信息及商业模式对他们是非常有直接的利益好处的七.为什么最近数据挖掘如此受关注a)主要是因为计算机技术尤其是数据库管理方面的技术很复杂棘手b)因
6、为数据库中的数据增长很快,手动查找信息会变得非常困难。数据挖掘对于发现和描述关系表中的隐藏模式非常有用。数据挖掘提供的算法允许自动模式查找。八.KDD数据库中的“知识发现”(KnowledgeDiscoveryinDatabases)a)“知识发现”最早是人工智能(AI,ArtificialIntelligence)领域的一个名词b)KDD由以下几个部分组成(当然包括“数据挖掘”)i.“数据清洗”(去除噪音数据和不统一数据)ii.“数据整合”(多个数据源的数据汇总到一起)iii.“数据筛选”(根据当前要分析的主题从数据库中
7、选取出与主题相关的数据)iv.“数据转换”(整理,转换数据使他们便于使用诸如“汇总”,“聚合”等挖掘算法的形式)v.“数据挖掘”(这可是核心的步骤,使用智能化方法来抽取出隐含的模式,规则)vi.“模式评估”(对刚才新发现的“知识”进行验证评估来检验此模式是不是可行)vii.“知识表示”(将挖掘出来的模式使用可视化的形式显现给用户)九.用于数据库挖掘的数据库可以用于数据库挖掘的数据库有如下几种:u关系型数据库u数据仓库u事务处理数据库u支持对象的关系型数据库u面向对象的数据库十.数据仓库(DW,DataWarehouse)面
8、向同一个主题,从多个数据源收集在一起,随时间变化但信息本身又相对稳定的信息数据集合。数据仓库将报告数据从运行着的数据库系统中隔离出来。通过将查询工作移动到更有效率的系统,这种隔离能够提高运行系统的性能。可以提高安全性。敏感信息将保存在不会暴露给查询的运行数据库中。由数据仓库提供的提取级别简化了对决策支持
此文档下载收益归作者所有