资源描述:
《数据仓库与数据挖掘考试习题汇总》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。3、数据处理通常分成两大类:联机事务处理和联机分析处理。4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于
2、多维数据结构组织的OLAP实现。6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储于管理和数据表现等。7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。10、从应用的角度看,数据仓库的发展演变可以归纳为5
3、个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。第二章1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。3、数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。4、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类
4、越多。5、使用星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织已经经过预处理,主要数据都在庞大的事实表中。6、维度表一般又主键、分类层次和描述属性组成。对于主键可以选择两种方式:一种是采用自然键,另一种是采用代理键。7、雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。8、数据仓库中存在不同综合级别的数据。一般把数据分成4个级别:早期细节级、当前细节级、轻度综合级和高度综合级。第三章1、SQLServerSSAS提供了所有业务数据的同意整合试图,可以作为传统报表、在线分析处理、关键性能指示器记分卡和数据挖掘的基础。2、数
5、据仓库的概念模型通常采用信息包图法来进行设计,要求将其5个组成部分(包括名称、维度、类别、层次和度量)全面地描述出来。3、数据仓库的逻辑模型通常采用星型图法来进行设计,要求将星型的各类逻辑实体完整地描述出来。4、按照事实表中度量的可加性情况,可以把事实表对应的事实分为4种类型:事务事实、快照事实、线性项目事实和事件事实。5、确定了数据仓库的粒度模型以后,为提高数据仓库的使用性能,还需要根据拥护需求设计聚合模型。6、在项目实施时,根据事实表的特点和拥护的查询需求,可以选用时间、业务类型、区域和下属组织等多种数据分割类型。7、当维表中的主键在事实表中没有
6、与外键关联时,这样的维称为退化维。它于事实表并无关系,但有时在查询限制条件(如订单号码、出货单编号等)中需要用到。8、维度可以根据其变化快慢分为元变化维度、缓慢变化维度和剧烈变化维度三类。9、数据仓库的数据量通常较大,且数据一般很少更新,可以通过设计和优化索引结构来提高数据存取性能。10、数据仓库数据库常见的存储优化方法包括表的归并与簇文件、反向规范化引入冗余、表的物理分割(分区)。第四章1、关联规则的经典算法包括Apriori算法和FP-growth算法,其中FP-grownth算法的效率更高。2、如果L2={{a,b},{a,c},{a,d},{
7、b,c},{b,d}},则连接产生的C3={{a,b,c},{a,b,d},{a,c,d},{b,c,d}}再经过修剪,C3={{a,b,c},{a,b,d}}3、设定supmin=50%,交易集如则L1={A},{B},{C}L2={A,C}T1ABCT2ACT3ADT4BEF第五章1、分类的过程包括获取数据、预处理、分类器设计和分类决策。2、分类器设计阶段包含三个过程:划分数据集、分类器构造和分类器测试。3、分类问题中常用的评价准则有精确度、查全率和查准率和集合均值。4、支持向量机中常用的核函数有多项式核函数、径向基核函数和S型核函数。第六章1、
8、聚类分析包括连续型、二值离散型、多值离散型和混合类型4种类型描述属性的相似度计算方法。2、连续型属性的数据样