《数据挖掘》课程作业答案.doc

《数据挖掘》课程作业答案.doc

ID:50656300

大小:28.03 KB

页数:12页

时间:2020-03-13

《数据挖掘》课程作业答案.doc_第1页
《数据挖掘》课程作业答案.doc_第2页
《数据挖掘》课程作业答案.doc_第3页
《数据挖掘》课程作业答案.doc_第4页
《数据挖掘》课程作业答案.doc_第5页
资源描述:

《《数据挖掘》课程作业答案.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、浙江大学远程教育学院《数据挖掘》课程作业答案第一章引言一、填空题(1)数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示(2)算法的效率、可扩展性和并行处理(3)统计学、数据库技术和机器学习(4)一些与数据的一般行为或模型不一致的孤立数据二、简答题(1)什么是数据挖掘?答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。(2)一个典型的数据挖掘系统应该包括哪些组成部分?答:一个典型的数据挖掘系统应该包括以下部分:数据库、数据仓库或其他信息库数据库或数据仓库服务

2、器知识库数据挖掘引擎模式评估模块图形用户界面(3)Web挖掘一般包括以下步骤:数据清理:(这个可能要占全过程60%的工作量)数据集成将数据存入数据仓库建立数据立方体选择用来进行数据挖掘的数据数据挖掘(选择适当的算法来找到感兴趣的模式)展现挖掘结果将模式或者知识应用或者存入知识库(4)请列举数据挖掘应用常见的数据源。(或者说,我们都在什么样的数据上进行数据挖掘)答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面

3、向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。第二章认识数据一、填空题(1)5/13(2)极差、分位数、四分位数、百分位数、四分位数极差和标准差(3)出落在至少高于第三个四分位数或低于第一个四分位数1.5×IQR处的值二、单选题(1)C;(2)C;三、简答题(1)什么是基于像素的可视化技术?它有什么缺点?答:对于一个m维数据集,基于像素的可视化技术在屏幕上创建m个窗口,每维一个。记录的m个维值映射到这些窗口对应位置上的m个像素。像素的颜色反映对应的值。基于像素的可视化技术的

4、缺点:难以呈现多维空间的数据分布,不显示数据子空间中是否存在稠密区域。(2)对称的和不对称的二元属性有什么区别?答:对称的二元属性指变量的两个状态具有同等价值或相同权重;而不对称的二元属性中,变量的两个状态的重要性是不同的。对称的二元属性可以使用简单匹配系数评估它们的相异度;不对称的二元属性使用Jaccard系数评估它们的相异度。第三章数据预处理一、填空题(1)数据清理、数据集成、数据变换、数据规约(2)沿概念分层向上概化(3)有损压缩,无损压缩(4)线性回归方法,多元回归,对数线性模型二、简答题(1)常用的数值属性概念分层的方法

5、有哪些?答:常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于熵的离散化和通过自然划分分段。(2)主成份分析步骤为:a、规范化输入的数据:所有属性落在相同的区间内;b、计算k个标准正交向量,即主成分;c、每个输入数据的向量都是这k个主成分向量的线性组合;d、主成分按照重要程度降序排序。(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。答:处理空缺值的方法有:(1)忽略元组。当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。(2)

6、人工填写空缺值。这种方法工作量大,可行性低(3)使用一个全局变量填充空缺值:比如使用unknown或-∞(4)使用属性的平均值填充空缺值(5)使用与给定元组属同一类的所有样本的平均值(6)使用最可能的值填充空缺值。如使用像Bayesian公式或判定树这样的基于推断的方法(4)常见的数据归约策略包括哪些?答:数据归约策略包括:(1)数据立方体聚集(2)维归约(3)数据压缩(4)数值归约(5)离散化和概念分层产生第六—七章挖掘频繁模式、关联和相关一、填空题(1)支持度和置信度(2)连接和剪枝(3)包含项集的事务数(4)找出所有频繁项集

7、、由频繁项集产生强关联规则(5)布尔关联规则、量化关联规则(6)频繁项集的所有非空子集也必须是频繁的(7)频繁谓词集二、简答题(1)简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。答:优点:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索。缺点:最小支持度值设置困难:太高则将丢掉出现在较低抽象层中有意义的关联规则;太低则会在较高层产生太多的无兴趣的规则。(2)如何提高Apriori算法的有效性?有哪些常见方法?可以使用以下几个思路提升Apriori算法有效性:减少对数据的扫描次数;缩小

8、产生的候选项集;改进对候选项集的支持度计算方法。常见方法包括:a、基于hash表的项集计数;b、事务压缩(压缩进一步迭代的事务数)c、划分;d、选样(在给定数据的一个子集挖掘);e、动态项集计数。第八章分类一、填空题(1)分类规则、决策树、数学公式

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。