数据仓库与数据挖掘技术第6章数据预处理技术

数据仓库与数据挖掘技术第6章数据预处理技术

ID:37452066

大小:370.60 KB

页数:62页

时间:2019-05-12

数据仓库与数据挖掘技术第6章数据预处理技术_第1页
数据仓库与数据挖掘技术第6章数据预处理技术_第2页
数据仓库与数据挖掘技术第6章数据预处理技术_第3页
数据仓库与数据挖掘技术第6章数据预处理技术_第4页
数据仓库与数据挖掘技术第6章数据预处理技术_第5页
资源描述:

《数据仓库与数据挖掘技术第6章数据预处理技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据仓库与数据挖掘技术第6章数据预处理技术主讲人:孙水华副教授信息科学与工程学院目录数据预处理概述数据清理数据集成数据变换数据归约小结数据预处理(datapreprocessing)是指在对数据进行数据挖掘主要的处理以前,先对原始数据进行必要的清洗、集成、转换、离散和归约等等一系列的处理工作,以达到挖掘算法进行知识获取研究所要求的最低规范和标准。现实世界的数据库往往易受噪声、丢失数据和不一致数据的侵扰,因为数据库太大(常常多达数千兆字节,甚至更多),并且多半来自多个异构数据源。低质量的数据将导致低质量的挖掘结果。这就需要进行数据预处理,从而提高数据质量,进而提高挖掘结果的质量。现在人们已经积

2、累了大量的数据预处理技术。如何恰当选择和应用这些技术得到更有效的数据,是一个值得探讨的问题。数据仓库和数据挖掘的应用产生了大量的数据,这些数据不一定是规范化的,它以不同的形式存储在不同的地方。根据“垃圾进,垃圾出”原理,这些低质量的数据进入系统将会导致昂贵的操作费用和系统漫长的响应时间,并且对从数据集中抽取的模式的正确性和导出规则的准确性产生巨大的影响,更严重的是会使得决策支持系统产生错误的分析结果,误导决策。6.1数据预处理概述6.1.1数据预处理的必要性现实世界采集到的大量的各种各样的数据是不符合挖掘算法进行知识获取研究所要求的规范和标准的。主要具有以下特征:(1)不完整性。指的是数据记

3、录中可能会出现有些数据属性的值丢失或不确定的情况,还有可能缺失必需的数据。这是由于系统设计时存在的缺陷或者使用过程中一些人为因素所造成的,如有些数据缺失只是因为输入时认为是不重要的;相关数据没有记录可能是由于理解错误,或者因为设备故障;与其他记录不一致的数据可能已经删除;历史记录或修改的数据可能被忽略等等。(2)含噪声。指的是数据具有不正确的属性值,包含错误或存在偏离期望的离群值。产生的原因很多。比如收集数据的设备可能出故障;人或计算机的错误可能在数据输入时出现;数据传输中也可能出现错误。不正确的数据也可能是由命名约定或所用的数据代码不一致,或输入字段(如时间)的格式不一致而导致的。实际使用

4、的系统中,还可能存在大量的模糊信息,有些数据其至还具有一定的随机性。(3)杂乱性(不一致性)。原始数据是从各个实际应用系统中获取的,由于各应用系统的数据缺乏统一标准的定义,数据结构也有较大的差异,因此各系统间的数据存在较大的不一致性,往往不能直接拿来使用。同时来自不同的应用系统中的数据由于合并而普遍存在数据的重复和信息的冗余现象。常见的数据预处理方法有:数据清洗、数据集成、数据变换和数据归约。图6.1给出了数据预处理的典型形式。6.1.2数据预处理的基本方法数据清理数据集成数据变换数据归纳-2,32,100,59,48-0.02,0.32,1.00,0.59,0.48属性属性图6.1数据预处

5、理的典型形式数据清理(datacleaning)处理例程通常包括:填补遗漏的数据值、平滑有噪声数据、识别或除去异常值,以及解决不一致问题。数据集成(dataintegration)就是将来至多个数据源的数据合并到一起,形成一致的数据存储,如将不同数据库中的数据集成入一个数据仓库中存储。之后,有时还需要进行数据清理以便消除可能存在的数据冗余。数据变换(datatransformation)主要是将数据转换成适合于挖掘的形式,如将属性数据按比例缩放,使之落入一个比较小的特定区间。这一点对那些基于距离的挖掘算法尤为重要。包括平滑处理、聚集处理、数据泛化处理、规格化、属性构造。数据归约(datare

6、duction)在不影响挖掘结果的前提下,通过数值聚集、删除冗余特性的办法压缩数据,提高挖掘模式的质量,降低时间复杂度。目前,数据仓库和数据挖掘在理论和应用上都获得了极大的发展,数据预处理作为其重要的、必不可少的组成部分,技术也随之快速发展。现阶段数据预处理技术中研究最多的是数据清洗和数据归约技术。6.1.3数据预处理的研究现状数据清洗研究内容主要涉及以下几方面:(1)对数据集进行检测。现阶段主要有以下方法:可以采用统计学的方法来对数据进行统计分析,计算属性值的各种数值,如考虑属性值之间差别大小,方差等。还有可以对与其他数据格式不一致的数据进行格式转换,使之格式符合数据挖掘的需要。(2)对数

7、据集中重复的对象进行消除,也就是对重复记录的清理。对重复数据的处理在数据仓库环境下特别重要,因为在具有多个数据源的时候可能会产生大量的重复记录。(3)对缺失数据的补齐,研究者大多采用可靠的算法将与缺失的值最相似的值替换缺失值的方法,包括贝叶斯网络、神经网络、k-最临近分类、粗糙集理论等,这些方法大都需要判断缺失记录与完整记录之间的记录相似度,这是其核心问题。数据归约技术及其主要内容为:(1)降维处理。主要采用

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。