2015新pep四年级下册英语期末试卷(附听力材料).doc

2015新pep四年级下册英语期末试卷(附听力材料).doc

ID:58148716

大小:105.50 KB

页数:3页

时间:2020-04-25

2015新pep四年级下册英语期末试卷(附听力材料).doc_第1页
2015新pep四年级下册英语期末试卷(附听力材料).doc_第2页
2015新pep四年级下册英语期末试卷(附听力材料).doc_第3页
资源描述:

《2015新pep四年级下册英语期末试卷(附听力材料).doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、2014~2015学年第二学期期末考试数据挖掘技术试卷(A卷)参考答案使用班级/12/13/14答题时间_120分钟_一、填空题(共10空,每空1分,共10分)1.数据挖掘的任务:分类、聚类、回归、关联分析、离群点监测、演化分析、序列模式。2.数据集的三个重要特性:_维度、稀疏性、分辨率。二、判断题(共10小题,每小题1分,共10分)判断下列3~7小题的描述是否正确?3.ID3算法不仅可以处理离散属性,还可以处理连续属性。(F)4.决策树方法通常用于关联规则挖掘。(F)5.先验原理可以表述为,一个频繁项集的任一子集也应该是频繁的。(T)6.Clementin

2、e是IBM公司的专业级数据挖掘软件。(T)7.具有较高的支持度的项集具有较高的置信度。(F)判断下列8~12小题的描述是否属于数据挖掘任务?8.利用历史数据预测公司将来的股价。(T)9.监测病人心率的异常变化。(F)10.监测地震活动的地震波。(F)11.提取声波的频率。(F)12.根据顾客喜好摆放商品位置。(T)三、简答题(6个小题,每小题5分,共30分)13.什么是信息熵?答:信息熵(entropy)是用来度量一个属性的信息量(1分)。假定S为训练集,S的目标属性C具有m个可能的类标号值,C={C1,C2,…,Cm},假定训练集S中,Ci在所有样本中出现

3、的频率为(i=1,2,3,…,m),则该训练集S所包含的信息熵定义为:(3分)熵越小表示样本对目标属性的分布越纯,反之熵越大表示样本对目标属性分布越混乱。(1分)14.什么是文本挖掘?答:文本挖掘是一个对具有丰富语义的文本进行分析,从而理解其所包含的内容和意义的过程。(2分)对其进行深入的研究可以极大地提高人们从海量文本数据中提取信息的能力,具有很高的商业价值。(1分)包括分词、文本表示、文本特征选择、文本分类、文本聚类、文档自动摘要等内容。(2分)15.什么是主成份分析?答:主成份分析(PCA)是一种用于连续属性的线性变换技术,找出新的属性(主成份),(1

4、分)这些新属性是原属性的线性组合,(1分)是相互正交的,(1分)使得原来数据投影到较小的集合中,并且捕获数据的最大变差。(1分)PCA通常揭示先前未曾觉察的联系,解释不寻常的结果。(1分)16.简述k-最近邻算法过程。答:KNN分类算法的基本描述如下:算法名:KNN输入:最近邻数目K,训练集D,测试集Z(1分)输出:对测试集Z中所有测试样本预测其类标号值(1分)(1)for每个测试样本(1分)do(2)计算z和每个训练样本之间的距离(1分)(3)选择离z最近的k最近邻集合(1分)(4)返回中样本的多数类的类标号(1分)(5)endfor17.简述Aprior

5、i算法原理。答:Apriori性质:一个项集是频繁的,那么它的所有子集都是频繁的。(1分)一个项集的支持度不会超过其任何子集的支持度。(1分)该算法采用逐层的方法找出频繁项集,(1分)首先找出1频繁-项集,通过迭代方法利用频繁k-1-项集生成k候选项集,(1分)扫描数据库后从候选k-项集中指出频繁k-项集,直到生成的候选项集为空。(1分)18.什么是离群点?答:离群点是在数据集中偏离大部分数据的数据,(2分)使人怀疑这些数据的偏离并非由随机因素产生,(1分)而是产生于完全不同的机制。(2分)四、计算题(共2题,每小题20分,共40分)319.数据集如下表:A

6、1A2A3B1B2B3B4C1C2C3x1975962728y2598294713以A1、B1、C1为初始簇中心,利用曼哈顿距离的k-means算法计算:(1)第一次循环后的三个簇中心;(2)最后的三个簇中心,以及各簇包含的对象。(要有计算步骤)解:(1)计算其他7个数据点到三个中心的曼哈顿距离:M(A2,A1)=11M(A2,B1)=7M(A2,C1)=4M(A3,A1)=13M(A3,B1)=3M(A3,C1)=2M(B2,A1)=8M(B2,B1)=10M(B2,C1)=7M(B3,A1)=12M(B3,B1)=2M(B3,C1)=3M(B4,A1)=

7、3M(B4,B1)=7M(B4,C1)=8M(C2,A1)=2M(C2,B1)=10M(C2,C1)=11M(C3,A1)=8M(C3,B1)=8M(C3,C1)=5经过本次循环,属于A1簇的数据点为(A1,B4,C2),(1分)中心为X1(1.67,2.33);(1分)属于B1簇的数据点为(B1,B3),(1分)中心为X2(5.5,8.5);(1分)属于C1簇的数据点为(C1,A2,A3,B2,C3),(1分)中心为X3(8,5.2);(1分)(2)计算10个点到三个新中心的距离:M(A1,X1)=1M(A1,X2)=11M(A1,X3)=10.2M(A2

8、,X1)=10M(A2,X2)=7M(A2,X3)=

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。