数据挖掘复习大纲(整理)

ID：13274786

大小：78.50 KB

页数：7页

时间：2018-07-21

资源描述：

《数据挖掘复习大纲(整理)》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、一、填空题（每空1分，共10分）二、单项选择题（每题2分，共10分）三、简答题（3道题，共28分）。四、计算题（40分）五．综合分析题(共12分)考试时间:2014年6月24日(第18周星期2)考试地点：教212第一章1．数据挖掘的过程（P7）数据挖掘是一个过程，而非一个单纯的数据建模。数据挖掘是一个以数据为中心的循序渐进的螺旋式数据探索过程，它涉及业务理解、数据理解、数据准备、建立模型、方案评估和方案实施等多个阶段。2．数据挖掘能做什么（P8）数据挖掘通常可以完成数据总结、分类、关联、聚类等若干主要任务。3．数据

2、挖掘的知识形式（P9）数据挖掘通过各种分析方法最终得到的知识，通常的表现形式包括浓缩数据、树形图、推理规则以及数学模型等。第二章1．从数据挖掘角度看，变量类型分为哪几类？（P30）从计量层次方面归纳，变量通常包括以下类型，即数据型变量、定类型变量和定序型变量，后两个类型也统称为分类型变量。Clementine将变量类型进一步细分为：连续数值型，如年龄。离散数值型，如家庭人口数。二分类型，如性别。多分类型，如职业。定序型，如学历和收入水平。缺省型：缺省型是一种尚未明确的变量类型。2．什么是实验因素、水平与实验指标？（

3、P40）实验设计中，将实验设计者希望考察的实验条件称为实验因素，实验因素的具体取值为水平。将衡量实验结果好坏程度的指标称为实验指标。第三章、第四章每个节点的功能（P47）Type：变量说明，对读入数据流中变量取值的有效性进行限定、检查和修正。（P52）Filler：对变量值的重新计算。（P57）Reclassify：对分类型变量的取值进行调整。（P59）Derive:生成新变量。（P62）Binning：对数值进行离散化处理，采用变量值分组方法。（P69）Partition：生成样本集分割变量。（将所得到的样本数据

4、按一定比例随机分割为两个或三个子样本集。）（P73）Sort：样本排序。（P74）Select：实现样本筛选。（P75）Sample：样本的随机抽样。（P76）Distinct：样本浓缩处理。（P77）Aggregate:实现分类汇总。（P79）Balance：样本平衡处理。（P80）Transpose：样本数据转置。（81）Restructure：数据的重新组织。第五章1．什么是独立样本？什么是配对样本？（P107、111）所谓独立样本是指，从一总体中抽取一组样本对从另一总体中抽取一组样本没有任何影响，两组样本的

5、样本量可以不相等。所谓配对样本可以是个案“前”“后”两种状态下某属性的两种不同特征值，也可以是某事物两个不同侧面或方面的描述。2．数据质量的探索需要做些什么？（P84-88）数据质量的探索主要包括数据缺失问题、数据离群点和极端值两大方面，具体包括数据中有效样本比例的计算、变量中用户缺失值和空白比例的计算和处理、数据中离群点的诊断和处理等。第六章1．决策树的两个核心问题（P121）决策树主要围绕两大核心问题展开：第一，决策树的生长问题，即利用训练样本集完成决策树的建立过程；第二，决策树的剪枝问题，即利用检验样本集对形

6、成的决策树进行精简。2．决策树的生长过程（P122）决策树的生长过程本质是对训练样本的反复分组过程。决策树上的各个分枝是在数据不断分组的过程中逐渐生长出来的。当对某组数据的继续分组不再有意义时，决策树对应的分枝便不再生长；当所有数据组的继续分组均不再有意义时，决策树的生长过程宣告结束。此时，一棵完整的决策树便形成了。因此，决策树生长的核心算法是确定数据分组标准，即决策树的分枝准则。3．决策树修剪技术的分类（P123）常用的决策树修剪技术有预修剪和后修剪。预修剪技术主要用来限制决策树的充分生长，后修剪技术则是待决策树

7、充分生长完毕后再进行剪枝。4．使用信息增益以及信息增益率，确定最佳分组变量（P125-130）5．决策树如何进行修剪（P130-131）6．使用PRISM算法如何进行推理（P133)第9章1．事务和项集的概念(P243)简单关联规则的分析对象是事务。事务可以理解为一种商业行业，含义极为宽泛。例如，超市顾客的购买行为是一种事务；网页用户的页面浏览行为是一种事务；一份保险公司的人寿保单也是一种事务。事务（T）通常由事务标识（TID）和项目集合，简称项集X组成。2．关联规则的置信度与支持度（P245）规则置信度：是对简单

8、关联规则准确度的测量，描述了包含项目X的事务中同时也包含项目Y项的概率，反映X出现条件下Y出现的可能性规则支持度：测试了简单关联规则的普遍性，表示项目X和项目Y同时出现的概率。3．频繁项集的概念（P249）频繁项集：指包含项目A的项集C,如果其支持度大于等于用户指定的最小支持度，则C(A)为频繁项集。4．如何使用Apriori算法找出各频繁项集，以及从频繁项

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 7



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

数据挖掘复习大纲(整理)

数据挖掘复习大纲(整理)

相关文章

相关标签