数据挖掘概念与技术习题答案-第3章.docx

数据挖掘概念与技术习题答案-第3章.docx

ID:61784527

大小:20.51 KB

页数:6页

时间:2021-03-20

数据挖掘概念与技术习题答案-第3章.docx_第1页
数据挖掘概念与技术习题答案-第3章.docx_第2页
数据挖掘概念与技术习题答案-第3章.docx_第3页
数据挖掘概念与技术习题答案-第3章.docx_第4页
数据挖掘概念与技术习题答案-第3章.docx_第5页
资源描述:

《数据挖掘概念与技术习题答案-第3章.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘概念与技术(原书第3版)第三章课后习题及解答3.7习题3.1数据质量可以从多方面评估,包括准确性、完整性和一致性问题。对于以上每个问题,讨论数据质量的评估如何依赖于数据的应用目的,给出例子。提出数据质量的两个其他尺度。答:数据的质量依赖于数据的应用。准确性和完整性:如对于顾客的地址信息数据,有部分缺失或错误,对于市场分析部门,这部分数据有80%是可以用的,就是质量比较好的数据,而对于需要一家家拜访的销售而言,有错误地址的数据,质量就很差了。一致性:在不涉及多个数据库的数据时,商品的编码是否一致并不影响数据的质量,但涉及多个数据库时,

2、就会影响。数据质量的另外三个尺度是时效性,可解释性,可信性。3.2在现实世界的数据中,某些属性上缺失值得到元组是比较常见的。讨论处理这一问题的方法。答:对于有缺失值的元组,当前有6种处理的方法:(1)忽略元组:当缺少类标号时通常这么做(假定挖掘任务涉及分类)。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性缺失值的百分比变化很大时,它的性能特别差。采用忽略元组,你不能使用该元组的剩余属性值。这些数据可能对手头的任务是有利的。(2)人工填写缺失值:一般来说,该方法很费时,并且当数据集很大、缺失值很多时,该方法可能行不通。(3)使用一

3、个全局常量填充缺失值:将缺失的属性值用同一个常量(如“unknown”或-)替换。如果缺失值都用“unknown”替换,则挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值——“unknown”。因此,尽管该方法简单,但是并不十分可靠。(4)使用属性的中心度量(如均值或中位数)填充缺失值:第2章讨论了中心趋势度量,它们指示数据分布的“中间”值。对于正常的(对称的)数据分布,可以使用均值,而倾斜分布的数据则应使用中位数。。(5)使用与给定元组属同一类的所有样本的属性均值或中位数(6)使用最可能的值填充缺水值:可以用回归、使用贝

4、叶斯形式化方法的基于推理的工具或决策树归纳确定。3.3在习题2.2中,属性age包括如下值(以递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.(a)使用深度为3的箱,用箱均值光滑以上的数据。说明你的步骤,讨论这种技术对给定数据的效果。答:首先将排好序的age数据划分到大小为3的等频的箱中,如下:13,15,16;16,19,20;20,21,22;22,25,25;25,25,30;33,33,35;35,35,35;

5、36,40,45;46,52,70.其次用箱均值光滑数据:13,15,16;16,19,20;20,21,22;22,25,25;25,25,30;33,33,35;35,35,35;36,40,45;46,52,70.14.7,14.7,14.7;18.3,18.3,18.3;21,21,21;24,24,24;26.7,26.7,26.7;33.7,33.7,33.7;35,35,35;40.3,40.3,40.3;56,56,56箱均值光滑技术确实使给定的数据光滑了。(b)如何确定该数据中的离群点?答:可以用聚类来检测离群点。聚类将类

6、似的值组织成群或“簇”,直观的,落在簇之外的值被视为离群点。(c)还有什么其他方法来光滑数据?答:还可以用回归来光滑数据。3.4讨论数据集成需要考虑的问题。答:1.实体识别问题;2.冗余和相关分析;3.元组重复;4.数据值冲突的检测与处理。3.5如下规范化方法的值域是什么?(a)最小-最大规范化(b)z分数规范化(c)z分数规范化,使用均值绝对偏差而不是标准差(d)小数定标规范化答:(a)最小-最大规范化:[指定的最小,最大值](b)z分数规范化:(-∞,+∞)(c)z分数规范化,使用均值绝对偏差而不是标准差:(-∞,+∞)(d)小数定标规

7、范化:(-1,1)3.6使用如下方法规范化如下数据组:200,300,400,600,1000(a)另min=0,max=1,最小-最大规范化(b)z分数规范化(c)z分数规范化,使用均值绝对偏差而不是标准差(d)小数定标规范化答:(a)另min=0,max=1,最小-最大规范化200变为0300变为(300-200)/(1000-200)*(1-0)+0=0.125400变为(400-200)/(1000-200)*(1-0)+0=0.25600变为(600-200)/(1000-200)*(1-0)+0=0.51000变为(1000-2

8、00)/(1000-200)*(1-0)+0=1规范化后的数据组为:0,0.125,0.25,0.5,1(b)z分数规范化求得数据组均值为500,标准差为316.2200变为-0

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。