数据挖掘考试重点复习.doc

数据挖掘考试重点复习.doc

ID:56207314

大小:1.71 MB

页数:21页

时间:2020-03-20

数据挖掘考试重点复习.doc_第1页
数据挖掘考试重点复习.doc_第2页
数据挖掘考试重点复习.doc_第3页
数据挖掘考试重点复习.doc_第4页
数据挖掘考试重点复习.doc_第5页
资源描述:

《数据挖掘考试重点复习.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、1.了解商务智能的定义与大数据的四个基本特征;答:商务智能是企业利用数据仓库(DW)、数据挖掘(DM)、在线分析处理(OLAP)、决策支持系统(DSS)等现代信息技术对企业生产、经营过程中产生的大量结构化和非结构化数据进行收集、整理、分析,形成知识或情报,以辅助企业做出正确的决策、采取有效的商务行动、优化商务流程、全面提升商务绩效的工具、方法和技术的统称。大数据特征:(4个V)2.理解商务智能系统的5层结构商务智能系统结构大致分为五层:① 数据源层:也可称作操作型数据层,是整个数据仓库的基础,提供了整个系统最原始的数据① 数据获取层:也可称作数据转换层,主要是把数

2、据源层的数据通过ETCL过程转换到数据仓库中② 数据存取层:该层是按主题进行分析和对相关的数据进行挖掘的数据源,包括每一个按主题进行分类的数据集市或专门用于数据挖掘的数据仓库③ 数据分析服务层:该层是数据存储和前端分析工具的桥梁④ 前端展现层:用户界面1.理解操作型与分析型系统分离的必要性以及他们的特征1.理解维度爆炸给数据挖掘带来的困难数据过高的维度会给计算带来麻烦,在数据挖掘处理时,它会耗费很多的处理时间和内存容量。数据的高维度还使得数据间的关系也不容易察觉,增加了数据的无关属性和噪音点。2.掌握数据仓库的定义并理解其四个方面的特征数据仓库是决策支持系统和联机

3、分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。(数据仓库是为支持管理决策建立的,面向主题的、集成的、随时间变化的、相对稳定的数据集合。)【滔注:我觉得写括号里的会好一点】四方面特征:① 面向主题:主题是指用户使用数据仓库进行决策时所关心的重点忙面。② 集成性:在数据进入数据仓库之前,要进过统一于综合,将多个异源数据集成在一起。这一步是数据仓库建设中最关键、最复杂的一步。③ 时变性:数据仓库随时间变化不断增加新的数据。④ 相对稳定性:数据仓库反映的是历史的内容,而不是联机数据,主要供企业决策分析之用。1.掌握数据挖掘的定义并描述其主要特

4、征【数据挖掘定义】从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。数据挖掘是从大量数据中寻找其规律的技术。【主要步骤】(1)数据准备:从各种数据源中选取和集成用于数据挖掘的数据;(2)规律寻找:用某种方法将数据中的规律找出来;(3)规律表示:用尽可能符合用户习惯的方式将找出的规律表示出来。2.掌握Minkowski距离,并熟练计算l1,l2,l无穷norm【L1norm】当r=1,城市街区(也称曼哈顿、出租车、L1范数)距离;【L2norm】当r=2,欧几里得距离;【L∞norm】当r=∞

5、,上确界距离,这是对象属性之间的最大距离。1.理解Hunt’s算法的基本过程通过将训练记录相继划分成较纯的子集,以递归方式建立决策树。设Dt是与节点t相关联的训练记录集,而Y={y1,y2,…,yc}是类标号,Hunt算法的递归定义如下:(1)如果Dt中所有记录都属于同一个类yt,则t是叶节点,用yt标记。(2)如果Dt中包含属于多个类的记录,则选择一个属性测试条件,将记录划分成较小的子集。对于测试条件的每个输出,创建一个子女节点,并根据测试结果将Dt中的记录分布到子女节点中。然后,对于每个子女节点,递归地调用该算法。2.掌握吉尼系数、熵的定义,会计算其最大值与最

6、小值,理解信息增益在构造决策树时的意义【基尼系数、熵是度量不纯度的方法】GINI系数和熵都是越小,代表所分的节点属性越纯,最小可取到0,表示这个节点中只有一个类。当一个节点中有n个父节点,而且能分出n个子节点,GINI系数取到最大值,为1-1/n.熵也取到最大值log2n(滔注:那个2是角标,不是log2n!)【基尼值的性质】:越大越不纯,越小越纯,0最纯,1-1/n最不纯。b.子节点基尼值c.最大值、最小值(最小值表示最纯,最大值表示最不纯)【熵】在信息领域熵被用来衡量一个随机变量出现的期望值。熵是对信息的不确定性的度量。熵越低,意味着传输的信息越少。【熵的性质

7、】:熵是衡量节点一致性的函数。熵大于等于0,当且仅当p1=p2=……pn时,熵最大,纯的节点熵是0.【信息增益】当选择熵作为公式的不纯性度量时,熵的差就是所谓的信息增益。信息增益描述了当使用Q进行编码时,再使用P进行编码的差异。通常P代表样本或观察值的分布,也有可能是精确计算的理论分布。Q代表一种理论,模型,描述或者对P的近似。当纯度高达1时(即只有一种数据类型),熵最小,为0;当其中的各类数据均匀分布时,熵最大,为-log2p(j

8、t)。1.理解了解最邻近分类的基本思想,邻近分类的前提条件与分类过程【近邻分类法】是基于类比学习,即通过将给定的检验元组与和它相似的

9、训练元组进

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。