资源描述:
《数据仓库和数据挖掘技术复习材料》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、word资料下载可编辑数据仓库与数据挖掘技术复习资料一、单项选择题1.数据挖掘技术包括三个主要的部分(C)A.数据、模型、技术B.算法、技术、领域知识C.数据、建模能力、算法与技术D.建模能力、算法与技术、领域知识2.关于基本数据的元数据是指:(D)A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B.基本元数据包括与企业相关的管理方面的数据和信息;C.基本元数据包括日志文件和简历执行处理的时序调度信息;D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。3.关于OLAP和OLTP的说法,下列不正确的是:(A)A.O
2、LAP事务量大,但事务内容比较简单且重复率高B.OLAP的最终数据来源与OLTP不一样C.OLTP面对的是决策人员和高层管理人员D.OLTP以应用为核心,是应用驱动的4.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘5.下面哪种不属于数据预处理的方法?(D)A.变量代换B.离散化C.聚集D.估计遗漏值6.在ID3算法中信息增益是指(D)A.信息的溢出程度B.信息的增加效益C.熵增加的程度最大D.熵减少的程度最大7.以下哪个算法是基于规则的分类器(A)A.C4.5B.
3、KNNC.BayesD.ANN8.以下哪项关于决策树的说法是错误的(C)A.冗余属性不会对决策树的准确率造成不利的影响B.子树可能在决策树中重复多次C.决策树算法对于噪声的干扰非常敏感D.寻找最佳决策树是NP完全问题9.假设收入属性的最小与最大分别是10000和90000,现在想把当前值30000映射到区间[0,1],若采用最大-最小数据规范方法,计算结果是(A)专业技术资料word资料下载可编辑A.0.25B.0.375C.0.125D.0.510.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:(D)A.有放回的简单随机抽样B.无
4、放回的简单随机抽样C.分层抽样D.渐进抽样11.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A.分类B.聚类C.关联分析D.隐马尔可夫链12.设X={1,2,3}是频繁项集,则可由X产生(C)个关联规则。A.4B.5C.6D.713.(C)将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。A.MIN(单链)B.MAX(全链)C.组平均D.Ward方法14.只有非零值才重要的二元属性被称作:(C)A.计数属性B.离散属性C.非对称的二元属性D.对称属性15.在基本K均值算法
5、里,当邻近度函数采用(A)的时候,合适的质心是簇中各点的中位数。A.曼哈顿距离B.平方欧几里德距离C.余弦距离D.Bregman散度16.下面关于数据粒度的描述不正确的是:(C)A.粒度是指数据仓库小数据单元的详细程度和级别B.数据越详细,粒度就越小,级别也就越高C.数据综合度越高,粒度也就越大,级别也就越高D.粒度的具体划分将直接影响数据仓库中的数据量以及查询质量17.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(B)A.聚类B.关联规则发现C.分类D.自然语言处理18.OLAP技术的核心是:(D)A.
6、在线性B.对用户的快速响应C.互操作性D.多维分析19.下面哪种不属于数据预处理的方法?(D)A.变量代换B.离散化C.聚集D.估计遗漏值20.假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等深划分时,15在第几个箱子内?(B)A.第一个B.第二个C.第三个D.第四个专业技术资料word资料下载可编辑21.上题中,等宽划分时(宽度为50),15又在哪个箱子里?(A)A.第一个B.第二个C.第三个D.第四个22.熵是为消除不确定性所需要获得的信息量,投掷
7、均匀正六面体骰子的熵是:(B)A.1bitB.2.6bitC.3.2bitD.3.8bit23.假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D)A.0.821B.1.224C.1.458D.0.71624.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用
8、按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:(A)A.18.3B.22.6C.26.