数据挖掘复习题.doc

数据挖掘复习题.doc

ID:51835788

大小:103.00 KB

页数:3页

时间:2020-03-16

数据挖掘复习题.doc_第1页
数据挖掘复习题.doc_第2页
数据挖掘复习题.doc_第3页
资源描述:

《数据挖掘复习题.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据挖掘复习题1选择题1某超市研究销售记录数据后发现,买啤酒的人很大概率也会购买尿布,这属于数据挖掘的__A__问题。A关联规则发现B聚类C分类D自然语言处理2将原始数据进行集成、变换、维度规约、数值规约是在______C_____阶段完成的。A频繁模式挖掘B分类和预测C数据预处理D数据流挖掘3Clementine不能读取的数据文件是__D____。ASPSS文件BSAS文件C文本文件DPDF文件4在将“学生成绩.sav”数据文件通过Clementine的数据源(Source)选项卡加载到流中后,浏览此上载数据可用__A

2、___节点。A表(Table)B类型(Types)C过滤(Filter)D导出(Derive)5在利用多元线性回归进行预测过程中,如果解释变量的数目被控制在十个以内,至少需要__C___个样本才能满足模型估计的基本要求。A10B20C30D40填空题1某单位有100个人,他们的平均身高是170cm,标准差为5cm,根据切比雪夫定理,该单位至少有__75__%的人身高在160cm—180cm这个区间里,如果预先知道该单位人的身高服从正态分布,在上述条件不变的情况下,可得出该单位大约有__95__%人的身高在160cm—18

3、0cm这个区间里的结论。2Clementine可视化界面的四个区域分别是___流区域___,___面板区______,__模型管理区____,__项目管理区___。3Clementine超节点的建立操作是:首先选中若干个节点,然后右击鼠标,选择弹出菜单中的___创建超节点___选项,要查看超节点中的具体内容,选择超节点弹出菜单中的___放大___选项,如果要取消超节点,选择弹出菜单中的__展开__选项。4Clementine数据质量的探索主要包括___数据缺失问题___、__数据离群点和极端值两大方面。5Clementi

4、ne输出选项卡中的数据审核节点默认变量值在以均值为中心的3个标准差以外为离群点,5个标准差以外为极端值,默认变量值与上四分位数或下四分位数的绝对差大于1.5倍的四分位差为离群点,大于3倍四分位差为极端值。简答题1数据流的操作主要包括哪几个步骤?(1)选择和管理节点(2)节点连接和连接调整(3)设置节点参数(4)执行数据流2预测与分类的区别是什么?分类是预测数据对象的离散类别,预测是用于数据对象的连续取值3数据分类由哪几步过程组成?第一步,建立一个模型,描述指定的数据类集或概念集;第二步,使用模型进行分类。4ID3算法的核

5、心是什么?在决策树各级节点上选择属性时,用信息增益作为属性的选择标准,以使得在每一个叶节点进行测试时能获得关于被测试记录最大的类别信息。5不完整数据的产生原因有哪些?(1)有些属性的内容有时没有(2)有些数据当时被认为是不必要的(3)由于误解或检测设备失灵导致相关数据没有记录下来(4)与其他记录内容不一致而被删除(5)历史记录或对数据的修改被忽略了。6.噪声数据的产生原因有哪些?(1)数据采集设备有问题(2)在数据录入过程中发生了人为或计算机错误(3)数据传输过程中发生错误(4)由于命名规则或数据代码不同而引起的不一致。

6、7.对遗漏数据有哪些处理方法?忽略该条记录;手工填补遗漏值;利用默认值填补遗漏值;利用均值填补遗漏值;利用同类别均值填补遗漏值;利用最可能的值填充遗漏值。8.Clementine中有哪些对离群点或极端值的修正方法?(1)用距离离群点或极端值最近的正常数据代替。(2)剔除离群点或极端值。(3)用系统缺失值null替代离群点或极端值。(4)按照(1)修正离群点,剔除极端值。(5)按照(1)修正离群点,用系统缺失值null替代极端值。9.Clementine中有哪些对数据缺失值的替补方法?(1)用具体值替补,包括均值、中间值、

7、或一个指定常数。(2)用正态分布或均匀分布中的一个随机数替补。(3)用一个指定的算术表达式结果替补。(4)用分类回归树的预测值替补。10.说明多元线性回归模型假设检验的步骤?查看拟合优度,进行F检验,从整体上判断回归方程是否成立,如果F检验通不过,无须进行下一步;否则进行下一步查看各个变量的t值及其相应的概率,进行t检验,如果相应的概率小于给定的显著水平,该自变量的系数显著地不为0,该自变量对因变量作用显著;否则系数与0无显著差异(本质上=0),该自变量对因变量无显著的作用,应从方程中删去,重新估计方程。但是,一次只能将

8、最不显著(相应概率最大)的删除。每次删除一个,直至全部显著。计算题杨昭军等利用中国统计年鉴提供的1977~1985年耐用消费品社会拥有量数据如下:t012345678年度197719781979198019811982198319841985实际值3.043.54.064.75.636.637.58.49.4采用迭代

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。