数据挖掘总复习题.docx

数据挖掘总复习题.docx

ID:59194557

大小:65.70 KB

页数:2页

时间:2020-09-10

数据挖掘总复习题.docx_第1页
数据挖掘总复习题.docx_第2页
资源描述:

《数据挖掘总复习题.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘大作业一,什么是数据挖掘?数据挖掘是按照既定的业务目标,对大量的数据进行探索,揭示其中隐藏的规律性,并进一步将其模型化的先进,有效地对大量数据进行处理与分析的方法。二,什么是KDD?KDD为KnowledgeDiscoveryinDatabase,为基于数据库的知识发现技术。KDD是从数据中找到有效的,新颖的,潜在有用的,最终可理解的模式的过程。三,知识挖掘的主要步骤;从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识?数据预处理数据选择数据挖掘原始数据目标数据预处理后的

2、数据知识评价提取信息有用知识KDD是一个包括数据清理,数据集成,数据选择,数据变换,模式评价等步骤,最终得到知识的全过程,而数据挖掘只是其中的一个关键步骤。四,什么是分类分析?分类操作的具体过程是哪几步?及其用途?分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其他数据库中的记录进行分类。a.模型训练阶段:训练集b.使用模型:分类阶段,评估准确率(测试集),对类标号未知的新数据分类用途:有效地解决小规模数据库的挖掘问题。五,什么是聚类

3、分析?数据挖掘中有哪几种聚类方法?聚类是一个将数据集划分成若干组(Class)或类(Cluster)的过程,使得同一类内的数据对象具有较高的相似度,而不同类之间的数据对象相似度较低。六,聚类分析和分类分析的相同点和不同点分别是什么?分类和聚类技术不同,前者总是在特定的类标识下寻求新元素属于哪个类,而后者则是通过对数据的分析比较生成新的类标识。七,列举一个分类分析的实例ID-3学习算法(课本P177)八,列举一个聚类分析的实例:给定age(年龄)变量的如下度量值:18、22、25、42、28、43、33

4、、35、56、28通过如下方法进行变量标准化。(1)计算age的平均绝对偏差。(2)计算前四个值的z-score。一,分析一下实例:假设一个病人记录表(如下所示),包含属性name(姓名),gender(性别),fever(发烧),cough(感冒),test-1,test-2,Test-3,test-4。这里的name是对象标识,Gender是对称的二元变量,其余的属性都是非对称的二元变量。对非对称属性,值Y(yes)和P(positive)被置为1,值N(no或negative)被置为0,假设对象

5、之间的距离只基于对称变量来计算。根据Jaccard系数公式,三个病人Jack、Mary、Jim两两之间的相异度并且列出最可能有类似病的人。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。