欢迎来到天天文库
浏览记录
ID:58876383
大小:260.00 KB
页数:9页
时间:2020-09-21
《汕头大学数据挖掘期末复习.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、...大学2019数据挖掘期末复习资料(浩军老师班)考试围:数据预处理、数据关联分析、分类与预测、SVM、K-MEANS、聚类考试题型:简答题,复习请以实验相关容为主数据挖掘课程的主要容:1.数据挖掘概述2.数据预处理3.数据挖掘算法-关联分析4.数据挖掘算法-分类与预测5.数据挖掘算法-聚类分析一、数据挖掘概述什么是数据挖掘?数据挖掘概念:从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术(机器学习)的综合。数据挖掘定义:数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊
2、的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据的特征:大容量、含噪音(不完全、不正确)、异质数据(多种数据类型混合的数据源,来自互联网的数据是典型的例子)数据挖掘有哪些步骤?1.确定预测目标2.统计数据特征3.根据数据特征进行数据预处理4.应用数据挖掘模型(分类、聚类、关联分析、离群点挖掘、标记等)5.分析模型的准确率6.找出影响模型准确率的因素,回到第3步迭代直到模型足够完美。二、数据预处理数据预处理有哪些步骤?1.数据清理2.数据集成3.数据归约4.
3、数据变换与数据离散化为什么要进行数据预处理?现实世界的数据是不完整的、含有噪声的、不一致的、冗余的。低质量的数据将导致低质量的挖掘结果。1)现实世界的数据一般是脏的、不完整的和不一致的。2)数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。3)高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。数据的质量涉及的三个要素是?准确性,完整性和一致性。现实世界的数据一般是脏的不完整的不一致的。数据预处理技术可以改善数据的质量。如何填充数据中存在的缺失值?1.忽略元
4、组(删除)2.使用一个全局常量填充空缺值(例如NULL).......1.使用属性的平均值、众数、中位数来填充空缺值2.人工填充空缺值数据清理补充缺失的属性值:使用属性的中心度量(如均值或者中位数或者众数(频率度量出现单峰)填充缺失值。使用最可能的值填充缺失值(可以用回归,使用贝叶斯形式化方法)光滑数据,去掉噪声:噪声是被测量的变量的随机误差或者方差。数据光滑的技术:分箱法,把有序的数据数量等频地分到箱子中,可以用箱的均值光滑,用箱的边界值光滑,用箱的中位数光滑。数据集成将数据由多个数据源合并成一个一致的数
5、据存储,如数据仓库(集成多个数据库)。数据归约可以通过如聚集、删除冗余特征或者聚类来降低数据的规模。(得到数据的简化表示)简化数据、但产生相同或者相似的结果通过选择替代的、“较小的”数据表示形式来减少数据量。数据变换(例如,规化,离散化)可以把数据压缩到较小的区间,如0.0到1.0。这可以提高涉及距离度量的挖掘算法的准确率和效率。规化和聚集数据最小-最大规化最小-最大规化:将原始数据v经线性变换,映射到区间[new_minA,new_maxA]选择区间,找到数据最大值和最小值,进行区间规化离群点可能影响规化
6、零族规化z-score规化(零均值规化):属性A的值基于A的平均值和标准差规化。对离群点不敏感离散化:通俗的说,离散化是在不改变数据相对大小的条件下,对数据进行相应的缩小。概念解释离群点:与数据的一般行为或模型不一致的数据对象数据错误不可避免数据输入和获取过程出现的错误数据集成表现出来的错误数据传输过程所引入的错误分箱:通过考察数据的“近邻”(周围的值)来光滑有序数据的值。局部光滑。回归:(线性回归,多元线性回归)用一个函数(回归函数)拟合数据来光滑数据。聚类:将类似的值聚集为簇。可以识别并删除离群点、解决
7、数据的不一致基本描述数据汇总的图形显示(数据排序后使用)盒图(需要先将数据进行有序排列):.......盒图可以用五数概括(上下四分位数、中位数、上下边缘)四分位数是3个值,把排序的数据集分成4个相等的部分。盒的端点一般在四分位数上,使得盒的长度是四分位数的极差IQR(上四分位数75%,下四分位数25%)中位数用盒的线标记。盒外两条虚线(称为胡须)延伸到最小和最大的观测值(上边缘、下边缘)。超过过四分位数1.5*IQR时,单独画出离群点,否则让胡须扩展到它们。直方图:通常让一个桶代表给定属性的一个连续值域。
8、概括给定属性分布的图形方法,每个矩形等宽。分位数图:是一种观察单变量数据分布的简单有效的方法。分位数-分位数图可以查看一个分布到另外一个分布是否有漂移(确定间隔)散布图(散点图):是一种观察双变量数据的有用的方法,用于观察点簇和离群点,或考察相关联系的可能性。确定两个数值变量之间看上去是否存在联系、模式或者趋势的有效图形之一。两个变量属性的三个关系可以从散点图上看出来:正相关、负相关、不相关。分布式度量、代数度量
此文档下载收益归作者所有