资源描述:
《数据挖掘的清洗.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库。
1、为什么需要数据预处理?在现实社会中,存在着大量的“脏”数据不完整性(数据结构的设计人员、数据采集设备和数据录入人员)缺少感兴趣的属性感兴趣的属性缺少部分属性值仅仅包含聚合数据,没有详细数据噪音数据(采集数据的设备、数据录入人员、数据传输)数据中包含错误的信息存在着部分偏离期望值的孤立点不一致性(数据结构的设计人员、数据录入人员)数据结构的不一致性Label的不一致性数据值的不一致性7/27/20211为什么需要数据预处理?数据挖掘的数据源可能是多个互相独立的数据源关系数据库多维数据库(DataCube)文件、文档数据库数据转换为了数据挖掘
2、的方便海量数据的处理数据归约(在获得相同或者相似结果的前提下)7/27/20212为什么需要数据预处理?没有高质量的数据,就没有高质量的挖掘结果高质量的决策必须基于高质量的数据基础上数据仓库是在高质量数据上的集成7/27/20213数据预处理的主要任务数据清理填入缺失数据平滑噪音数据确认和去除孤立点解决不一致性数据集成多个数据库、DataCube和文件系统的集成数据转换规范化、聚集等数据归约在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩减数据离散化对于一个特定的连续属性,尤其是连续的数字属性,可以把属性值划分成若干区间,以区间
3、值来代替实际数据值,以减少属性值的个数.7/27/20214数据预处理的形式数据清理数据集成数据转换数据归约7/27/20215主要内容为什么需要数据预处理?数据清洗数据集成与转换数据归约数据离散化与概念层次的构建本章小结7/27/20216数据清洗主要任务补充缺失数据识别孤立点,平滑噪音数据处理不一致的数据7/27/20217缺失数据的处理部分数据通常是不可用的在许多元组中部分属性值为空。如:在客户表中的客户收入为空。导致数据缺失的原因数据采集设备的故障由于与其它信息的数据存在不一致性,因此数据项被删除由于不理解或者不知道而未能输入在当
4、时数据输入的时候,该数据项不重要而忽略数据传输过程中引入的错误缺失数据通常需要经过合理的推断予以添加7/27/20218缺失数据的处理方法忽略该记录(元组)通常在进行分类、描述、聚类等挖掘,但是元组缺失类标识时该种方法通常不是最佳的,尤其是缺失数据比例比较大的时候手工填入空缺的值枯燥、费时,可操作性差,不推荐使用使用一个全局的常量填充空缺数值给定一个固定的属性值如:未知、不祥、Unknown、Null等简单,但是没有意义7/27/20219使用属性的平均值填充空缺数值简单方便、挖掘结果容易产生不精确的结果使用与给定元组同一个类别的所有样本
5、的平均值分类非常重要,尤其是分类指标的选择使用最有可能的值予以填充利用回归、基于推导的使用贝叶斯形式化的方法的工具或者判定树归纳确定利用属性之间的关系进行推断,保持了属性之间的联系缺失数据的处理方法(续)7/27/202110噪音数据噪音数据:一个度量(指标)变量中的随机错误或者偏差主要原因数据采集设备的错误数据录入问题数据传输问题部分技术的限制数据转换中的不一致数据清理中所需要处理的其它问题重复的记录不完整的数据不一致的数据7/27/202111噪音数据的处理分箱(Binning)的方法聚类方法检测并消除异常点线性回归对不符合回归的数据
6、进行平滑处理人机结合共同检测由计算机检测可疑的点,然后由用户确认7/27/202112处理噪音数据:分箱方法分箱(Binning)方法:基本思想:通过考察相邻数据的值,来平滑存储数据的值基本步骤:首先,对数据进行排序,并分配到具有相同宽度/深度的不同的“箱子”中其次,通过箱子的平均值(Means)、中值(Median)、或者边界值等来进行平滑处理7/27/202113分箱(Binning)方法举例对数据进行排序:4,8,9,15,21,21,24,25,26,28,29,34对数据进行分割(相同深度):-Bin1:4,8,9,15-Bin
7、2:21,21,24,25-Bin3:26,28,29,34根据bin中的平均值进行离散化:-Bin1:9,9,9,9-Bin2:23,23,23,23-Bin3:29,29,29,297/27/202114基于聚类分析的平滑处理7/27/202115通过线性回归的平滑处理xyy=x+1X1Y1Y1’7/27/202116主要内容为什么需要数据预处理数据清洗数据集成与转换数据归约数据离散化与概念层次的构建本章小结7/27/202117数据集成数据集成的概念将多个数据源中的数据结合起来存放在一个一致的数据存储中数据源包括:多个数据库、多维数
8、据库和一般的文件数据集成也是数据仓库建设中的一个重要问题数据集成的内容模式集成利用数据库和数据仓库的元数据信息主要工作是识别现实世界中的实体定义冗余数据的处理检测和解决数值冲突对于现实世界中的