欢迎来到天天文库
浏览记录
ID:19269922
大小:452.21 KB
页数:14页
时间:2018-09-30
《数据挖掘知识点整理》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第一章1、数据挖掘的概念及其特点数据挖掘概念:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)数据挖掘(从数据中发现知识)特点:从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)2、数据挖掘的核心(KDD)是什么?知识挖掘(KDD)数据挖掘与知识发现从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识数据清理:(这个可能要占全过程60%的工作量)1、数据集成2、数据选择3、数据变换4、数据挖掘(选择适当的算法来找到感兴趣
2、的模式)5、模式评估6、知识表示3、数据挖掘的体制结构。2、数据挖掘的主要方法(能够区分)常用模式3、4、5、分类预测的说明:比如:按气候将国家分类,按汽油消耗定额将汽车分类导出模型的表示:判定树、分类规则、神经网络可以用来预报某些未知的或丢失的数字值聚类分析的说明:例:对WEB日志的数据进行聚类,以发现相同的用户访问模式孤立点分析的说明(应用)信用卡欺诈检测/移动电话欺诈检测/客户划分/医疗分析(异常)第二章1、数据仓库的概念(特点就在概念里)数据仓库是一个(1)面向主题的、(2)集成的、(3)随时间而变化的、(4)不容易丢失的数据集
3、合,支持管理部门的决策过程.2、OLAP(联机分析处理)和OLTP(联机事务处理)的区别1、用户和系统的面向性:面向顾客(事务)VS.面向市场(分析)2、数据内容:当前的、详细的数据(事务)VS.历史的、汇总的数据(分析)3、数据库设计:实体-联系模型(ER)和面向应用的数据库设计(事务)VS.星型/雪花模型和面向主题的数据库设计(分析)4、数据视图:当前的、企业内部的数据(事务)VS.经过演化的、集成的数据(分析)5、访问模式:事务操作(事务)VS.只读查询(但很多是复杂的查询)(分析)6、任务单位:简短的事务VS.复杂的查询7、访问
4、数据量:数十个VS.数百万个8、用户数:数千个VS.数百个9、数据库规模:100M-数GBVS.100GB-数TB10、设计优先性:高性能、高可用性VS.高灵活性、端点用户自治11、度量:事务吞吐量VS.查询吞吐量、响应时间3、多维数据模型在多维数据模型中,数据以数据立方体(datacube)的形式存在数据立方体允许以多维数据建模和观察。它由维和事实定义维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为维表。多维数据模型围绕中心主题组织,该主题用事实表表示事实表包括事实的名称或度量以及每个相关维表的关键字事实指的是一
5、些数字度量一个n维的数据的立方体叫做基本方体。给定一个维的集合,我们可以构造一个方体的格,每个都在不同的汇总级或不同的数据子集显示数据,方体的格称为数据立方体。0维方体存放最高层的汇总,称作顶点方体;而存放最底层汇总的方体则称为基本方体。3、几种常见的概念模型星型模式(Starschema):事实表在中心,周围围绕地连接着维表(每维一个),事实表含有大量数据,没有冗余。雪花模式(Snowflakeschema):是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加表中。结果,模式图形成类似于雪花的形状。事实星座(Fact
6、constellations):多个事实表共享维表,这种模式可以看作星型模式集,因此称为星系模式(galaxyschema),或者事实星座(factconstellation)1、一种数据挖掘查询语言DMQL一种是立方体定义,一种是维定义立方体定义(事实表)definecube[]:维定义(维表)definedimensionas()2、概念分层的概念一个概念分
7、层定义一个映射序列,将低层概念映射到更一般的高层概念多维数据模型(数据立方体)使得从不同的角度对数据进行观察成为可能,而概念分层则提供了从不同层次对数据进行观察的能力;结合这两者的特征,我们可以在多维数据模型上定义各种OLAP操作,为用户从不同角度不同层次观察数据提供了灵活性:3、多维数据模型上的OLAP操作上卷(roll-up):汇总数据通过一个维的概念分层向上攀升或者通过维规约当用维归约进行上卷时,一个或多个维由给定的数据立方体删除下钻(drill-down):上卷的逆操作由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或
8、引入新的维来实现(为给定数据添加更多细节)4、数据仓库设计的三种方法(自顶向下法、自底向上法或者两者的混合方法)自顶向下法:由总体设计和规划开始在技术成熟、商业理解透彻的情况下使用自底向上法:以实验和原型开
此文档下载收益归作者所有