数据挖掘复习大纲答案新新

数据挖掘复习大纲答案新新

ID:42596880

大小:101.68 KB

页数:6页

时间:2019-09-18

数据挖掘复习大纲答案新新_第1页
数据挖掘复习大纲答案新新_第2页
数据挖掘复习大纲答案新新_第3页
数据挖掘复习大纲答案新新_第4页
数据挖掘复习大纲答案新新_第5页
资源描述:

《数据挖掘复习大纲答案新新》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、数据挖掘复习提纲分值分布一、选择题(单选10道20分多选5道20分)二、填空题(10道20分)三、名词解释(5道20分)四、解答题(4道20分)五、应用题(Apriori算法20分)1.什么是数据挖掘?1答:简单地说,数据挖掘是从大量数据中提取或挖掘知识。具体地说,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。2.什么是数据清理?2答:填写缺失的值,平滑噪声数据,识别、删除离群点,解决不一致性3.什么是数据仓库?3答:是一个面向主题的、集成的、随

2、时间而变化的、不容易丢失的数据集合,支持管理部门决策的过程。(最显著特征:数据不易丢失2分选择题)4.什么是数据集成?4.数据集成:集成多个数据库、数据立方体或文件5.什么是数据变换?5答:将数据转换或统一成适合于挖掘的形式。6.什么是数据归约?6答:得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果7.什么是数据集市?7答:数据集市包含企业范围数据的一个子集,对于特定的用户群是有用的。其范围限于选定的主题。(是完整的数据仓库的一个逻辑子集,而数据仓库正是由所有的数据集市有机组合而成的)8.在数据挖掘过程中,耗时最长的步骤是

3、什么?8.答:数据清理9.数据挖掘系统可以根据什么标准进行分类?9答:根据挖掘的数据库类型分类、根据挖掘的知识类型分类、根据挖掘所用的技术分类、根据应用分类10.多维数据模型上的OLAP操作包括哪些?10.答:上卷、下钻、切片和切块、转轴/旋转、其他OLAP操作11.OLAP服务器类型有哪几种?11.答:关系OLAP服务器(ROLAP)、多维OLAP服务器(MOLAP)、混合OLAP服务器(HOLAP)、特殊的SQL服务器12.数据预处理技术包括哪些?(选择)12.答:聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量

4、变换。13.形成“脏数据”的原因有哪些?13.答:滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码14.与数据挖掘类似的术语有哪些?14答:数据库中挖掘知识、知识提取、数据/模式分析、数据考古和数据捕捞。15.常用的四种兴趣度的客观度量是什么?15答:简单性、确定性、实用性、新颖性16.数据立方体的物化可以有哪三种选择?16q全物化q不物化q部分物化17.从软件工程的观点来看,数据仓库的设计和构造包含哪些步骤?17答:规划、需求研究、问题分析、仓库设计、数据集成和

5、测试、部署数据仓库。18.在数据挖掘系统中,为什么数据清理十分重要?18答:脏数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个极其困难的任务。19.脏数据形成的原因有哪些?如何理解现实世界的数据是“肮脏的”?19答:滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码不完整的、含噪声的、不一致的、重复的20.数据清理时,对空缺值有哪些处理方法?20.答:忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、使用属性的平均值填充缺失值、使用与给定元组属

6、同一类的所有样本的属性均值、使用最可能的值填充缺失值21.什么是数据变换?包括哪些内容?21.答:将数据转换或统一成适合于挖掘的形式。包括:光滑、聚集、数据泛化、规范化、属性构造22.数据归约的策略包括哪些?22.答:数据立方体聚集、性子集选择、维度归约、数值归约、离散化和概念分层产生23..提高数据挖掘算法效率有哪几种思路?23.答:减少对数据的扫描次数;缩小产生的候选项集;改进对候选项集的支持度计算方法24.假定属性income的最小值与最大值分别为12000和98000到区间[0.0,1.0],根据min-max规范化,inc

7、ome的值73600将变为__0.716_____。25.假定属性income的平均值和标准差分别为54000和16000,使用Z-score规范化,值73600被转换为_1.225_。26.假定A的值由-986到917.A的最大绝对值为986,使用小数定标规范化,-986被规范化为_-0.986_27.从结构角度来看,有哪三种数据仓库模型。27.答:企业仓库、数据集市、虚拟仓库28.什么是聚类分析?28.答:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程30.可以对按季度汇总的销售数据进行___B___,来观察按月汇

8、总的数据。A上卷B下钻C切片D切块31.可以对按城市汇总的销售数据进行____A__,来观察按国家总的数据。A上卷B下钻C切片D切块32.通过不太详细的数据得到更详细的数据,称为____B____。A上卷B下钻C细化D维规约33.三层

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。