数据挖掘考试重点.docx

数据挖掘考试重点.docx

ID:59194552

大小:14.80 KB

页数:3页

时间:2020-09-10

数据挖掘考试重点.docx_第1页
数据挖掘考试重点.docx_第2页
数据挖掘考试重点.docx_第3页
资源描述:

《数据挖掘考试重点.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、术语解释1、数据挖掘是在大型数据存储库中,自动地发现有用信息的过程2、分类挖掘:给定一个记录的集合(训练集),每个记录包含一组属性,一个属性是类,找到一个类的属性与其他属性的值的函数模型。目的:以前看不到的记录应尽可能准确地分配一个类。通常情况下,给定的数据集分为训练集和测试集,训练集用于构建模型和测试集用于检验模型的准确性。3、聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组。其目标是,组内的对象之间是相似的(相关的),而不同的组中的对象是不同的(不相关的)。组内的相似性(同

2、质性)越大,组间差别越大,聚类就越好。4、关联规则分析用来发现描述数据库中强关联特征的模式。给定事物的集合T,找出支持度大于等于minsup并且置信度大于等于minconf的所有规则,其中minsup和minonf是对应的支持度和置信度阈值。5、异常检测的任务是识别其特征明显不同于其他数据的观测值。6、预测性任务目标是根据其他属性的值,预测特定属性的值。7、描述任务目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术

3、验证和解释结果。8、事物数据是一种特殊类型的记录数据,其中每一个记录(事物)涉及一个项的集合。9、时序数据可以看做记录数据的扩充,其中每个记录包含一个与之相关联的时间。10、序列数据是一个数据集合,他是个体项的序列,如词或字母的序列,有序序列中有位置。11、离散化问题就是决定选择多少个分割点和确定分割点位置的问题。非监督离散化用于分离的离散化方法之间的根本区别在于是否使用类信息。如果我们用不同组的不同对象被指派到相同分类值的程度来度量离散化技术的性能,则K均值性能较好,其次是等频率,最后是等宽。

4、监督离散化基于熵的方法是目前最有前途的离散化方法之一。区间的熵是区间纯度的度量,熵越小越好。12、两个对象之间的相似度是这两个对象相似程度的数值度量。13、相异度是这两个对象差异程度的数值度量。14、离群点是在某种意义上具有不同于数据集中其他大部分数据对象的特征的数据对象,或是相对于该属性的典型值不寻常的属性值。简答题范围1、数据库中知识发现过程输入数据数据预处理数据挖掘后处理信息模式过滤可视化模式表示特征选择维归约规范化选择数据子集1、标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息以

5、区分对象,等于或不等于。例子:邮政编码、雇员ID号、眼球颜色、性别。操作:众数、熵、列联相关、x2检测序数属性的值提供足够的信息确定对象的序,大于或小于。例子:矿石硬度、{好,较好,最好}、成绩、街道号码。操作:中值、百分数、秩相关、游程检验】符号检验相同点:统称分类的或定性的不同点:有序跟无序??2、处理遗漏值删除数据对象或属性如果一个数据集只有少量的对象具有遗漏值,则忽略它们可能是合算的,一种相关的策略是删除具有遗漏值的属性。估计遗漏值如果属性是连续的,则可以使用最近邻的平均属性值;如果属性

6、是分类的,则可以取最近的邻中常出现的属性值。在分析时忽略遗漏值对于某属性,两个对象之一或两个对象都有遗漏值,则可以仅使用没有遗漏值的属性来计算相似性。3、决策树是一种由结点和有向边组成的层次结构。包含3种结点:根节点,内部结点,叶节点。在决策树中,每个叶节点都赋予一个类标号,非终结点包含属性测试条件,用以分开具有不同特性的记录。举例:例如在根节点处,使用体温这个属性把冷血脊椎动物和恒温脊椎动物区别开来。因为所有的冷血脊椎东区都是非哺乳动物,所以用一个类称号为非哺乳动物的叶节点作为根节点的右子女。

7、如果脊椎动物是恒温的,则接下来用胎生这个属性来区分哺乳动物与其他恒温动物(主要是鸟类)。4、混淆矩阵又称“分类矩阵”,是用来显示评估分类模型的性能时其正确和错误预测的检验记录计数的一种可视化矩阵图。可以得到准确率和错误率,以此检验模型的可信度,用以评估模型。6、帮助减少频繁项集的产生时需要探查的候选项集个数。7、支持度:给定数据集的频繁程度;置信度:确定Y在包含X的事务中出现的频繁程度。支持度通常用来删去那些不令人感兴趣的规则,可以用于关联规则的有效发现;置信度则通过规则进行推理的可靠性。8、模

8、糊聚类当有数据集中的对象不能划分为明显分离的簇的时候,对每一个对象和簇赋予一个权值,指明该对象属于该簇的程度。9、问题:K均值并不适合所有的数据类型,他不能处理非球形簇、不同尺寸和不同密度的簇,尽管指定足够大的簇个数时他通常发现纯子簇。对包含离群点的数据进行聚类时,K均值也有问题。最后,K均值仅限于具有中心(质心)概念的数据。10、异常检测的一般方法:①基于模型的技术:建立模型之后,异常是同那些模型不能完美拟合的对象;②基于邻近度的技术:在对象之间定义邻近度量,异常是远离大部分对象的对象,也是距

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。