数据挖掘填空题复习资料.docx

数据挖掘填空题复习资料.docx

ID:55039637

大小:15.72 KB

页数:2页

时间:2020-04-26

数据挖掘填空题复习资料.docx_第1页
数据挖掘填空题复习资料.docx_第2页
资源描述:

《数据挖掘填空题复习资料.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、1.属性的数据性质包括:相异性,有序性,可和差性和可乘除性四个性质2.根据属性所具有的数值性质不同可将属性分为定性属性和定量属性3.根据属性值得个数不同可将属性分为离散型和连续型4.根据属性的数值性质可将属性分为四种属性类型标称,序数,区间,比率5.非对称的属性是指自由出行属性非零值才是重要的属性6.数据集的一般特性包括维度,稀疏性,分辨率7.数据集的维度是数据集中的属性数目8.稀疏数据集是指该数据集的数据对象具有的属性数目9.记录数据分为事务数据,数据矩阵,稀疏数据矩阵三大类11.基于图形的数据分为带有对象之间联系的数据,具有图形对象的数据12.常见的有序数据有时间

2、数据,序列数据,空间数据,时间序列数据13.空间数据的一个重要特点是空间自相关性,即物理上靠近的对象趋向于在其他方面也相似14.抽样方法有简单随机抽样,分层抽样,渐进抽样15.抽样偏倚是指样本包含的不同类型的对象与它们在总体中的出现情况下不成比例16.特征选择过程可以看作由四部分组成:于集评估度量,控制新的特征子集产生的搜索策略,停止搜索判断,验证过程17.特征加权是指另一种保留或删除特征的方法,权值越大,特征越重要,它在模型中起的作用越重要18.特征创建是指由原来的属性创建新的属性,更有效地捕捉数据集中的重要信息19.三种创建新属性的方法是特征提取,特征构造,映射数

3、据到新的空间20.将连续属性变换成分类属性过程称为离散化21.将连续和离散属性变换成一个或多个二元属性的过程称为二元化22.连续属性离散化方法分为非监督离散化,监督离散化方法,它们的区别在于使用类信息还是不使用类信息23.非监督离散化分为等宽,等频率,聚类方法27数据集中任何两个对象之间的距离构成的矩阵称为距离矩阵四、1.区别分类与回归的关键特征是类标号必须是离散属性。2.分类的两个主要目的是进行描述性建模和预测性建模。3.分类模型的误差可分为训练误差和泛化误差。4.训练误差也称再带入误差或表现误差,是在训练记录上误分类样本比例。泛化误差是模型在未知记录上的期望误差。

4、5.一个号的分类模型不仅要能够很好地拟合训练数据,而且对未知样本也要能准确地分类。即一个号的分类模型必须具有低训练误差和低泛化误差。6.在分类模型评估的保持方法中,将被标记的原始数据划分成两个不相交的集合,分别称为训练集和检验集。在训练数据集归纳分类模型,在检验集上评估模型的性能。7.在分类模型评估的K折交叉验证方法中,吧数据分为大小相同的K份,在每次运行,选择其中一份作检验集,而其余的全作为训练集。五、1.分类规则的质量可用规则的覆盖率和准确率表示。2.规则集的两个重要性质是互斥规则和穷举规则。3.如果规则集R中不存在两条规则被同一条记录触发,则称规则集R中的规则是

5、互斥的,这个性质确保每条记录至多被R中的一条规则覆盖。4.如果对属性值的任意组合,R中都存在一条规则加以覆盖,则称规则集R具有穷举覆盖。这个性质确保每一条记录都至少被R中的一条规则覆盖。5.提取分类规则的方法有直接方法和间接方法两大类。6.提取分类规则的直接方法是指把属性空间分为较小的子空间以便于属于一个子空间的所有记录可以使用一个分类规则进行分类。7.提取分类规则的间接方法是指使用分类规则较为复杂的分类模型提供简洁的描述。8.规则的排序方案有基于规则的排序方案和基于类的排序方案两种。9.常见的分类规则增长策略有从一般到特殊和从特殊到一般两种第六章1.关联规则挖掘的目

6、的是用于发现隐藏在大型数据集中的有意义的联系。2.满足最小支持度和最小信任度的关联规则称为强关联规则。3.给定一个事务数据库,关联规则挖掘问题就是通过用户指定的最小支持度和最小置信度来寻找强关联规则的过程。4.关联规则挖掘问题可以划分成频繁项集产生和规则的产生两个子问题,5.可以降低产生频繁项集的计算复杂度两种方法为:减少候选项集的数目和减少比较次数。6.Apriori算法有两个知名的性能瓶颈。分别是1.   0/1负载很大,需要多次扫描事务数据库。 2.   可能产生庞大的候选集。维归约是指数据预处理的一个重要动机是减少维度区别分类与回归的关键特征是类标号必须是离散

7、属性提取分类规则的直接方法是指把属性空间分为较小的子空间,以便于属于一个子空间的所有记录可以使用一个分类规则进行分类、提取分类规则的间接方法是指使用分类规则较为复杂的分类模型提供简洁的描述关联规则挖掘问题可以划分为频繁项集产生和规则的产生两个子问题可以降低生产频繁项集的计算复杂度两种方法为减少候选项集的数目和减少比较次数K-候选集Ck产生的方法有:蛮力方法,和Apriori算法有两个致命的性能瓶颈。1.他们分别是0/1负载很大,需要多次扫描事物数据库,2.可能产生庞大的候选集抽样偏倚是指样本包含不同类型的对象以及他们在总体重的出现情况不成比例特征选择

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。