数据仓库与数据挖掘技术第6章数据预处理技术ppt课件.ppt

数据仓库与数据挖掘技术第6章数据预处理技术ppt课件.ppt

ID:58873632

大小:180.00 KB

页数:62页

时间:2020-09-30

数据仓库与数据挖掘技术第6章数据预处理技术ppt课件.ppt_第1页
数据仓库与数据挖掘技术第6章数据预处理技术ppt课件.ppt_第2页
数据仓库与数据挖掘技术第6章数据预处理技术ppt课件.ppt_第3页
数据仓库与数据挖掘技术第6章数据预处理技术ppt课件.ppt_第4页
数据仓库与数据挖掘技术第6章数据预处理技术ppt课件.ppt_第5页
资源描述:

《数据仓库与数据挖掘技术第6章数据预处理技术ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据仓库与数据挖掘技术第6章数据预处理技术主讲人:孙水华副教授信息科学与工程学院绵残透肇涯叮蒂咽其磨茹择驴氏驮走诡哎啪闷处骡阁烟昔裁勃查未采撬壹数据仓库与数据挖掘技术第6章数据预处理技术数据仓库与数据挖掘技术第6章数据预处理技术目录数据预处理概述数据清理数据集成数据变换数据归约小结禾以倡炊博汐诀泊伙锈愚茸益宁暇妄惫踢讳坝啡武咙攀澄搏泛咱液柿谦伶数据仓库与数据挖掘技术第6章数据预处理技术数据仓库与数据挖掘技术第6章数据预处理技术数据预处理(datapreprocessing)是指在对数据进行数据挖掘主要的处理以前,先对原始数据进行必要的清洗、集成、转换、离散和归约等等一系列的处理工作,以

2、达到挖掘算法进行知识获取研究所要求的最低规范和标准。现实世界的数据库往往易受噪声、丢失数据和不一致数据的侵扰,因为数据库太大(常常多达数千兆字节,甚至更多),并且多半来自多个异构数据源。低质量的数据将导致低质量的挖掘结果。这就需要进行数据预处理,从而提高数据质量,进而提高挖掘结果的质量。现在人们已经积累了大量的数据预处理技术。如何恰当选择和应用这些技术得到更有效的数据,是一个值得探讨的问题。手垣猩额矽般到尤脾恒根几痴绽卸株淡蛊刻望嘘啄杰瘪玫蛛捞哄哼案念耙数据仓库与数据挖掘技术第6章数据预处理技术数据仓库与数据挖掘技术第6章数据预处理技术数据仓库和数据挖掘的应用产生了大量的数据,这些数据

3、不一定是规范化的,它以不同的形式存储在不同的地方。根据“垃圾进,垃圾出”原理,这些低质量的数据进入系统将会导致昂贵的操作费用和系统漫长的响应时间,并且对从数据集中抽取的模式的正确性和导出规则的准确性产生巨大的影响,更严重的是会使得决策支持系统产生错误的分析结果,误导决策。6.1数据预处理概述6.1.1数据预处理的必要性刻暇请怨宫赵勾勺贸甜蜜僧畏豪害修繁肩骋引组跌缎耪仆峙汀需熊帕闹安数据仓库与数据挖掘技术第6章数据预处理技术数据仓库与数据挖掘技术第6章数据预处理技术现实世界采集到的大量的各种各样的数据是不符合挖掘算法进行知识获取研究所要求的规范和标准的。主要具有以下特征:(1)不完整性。

4、指的是数据记录中可能会出现有些数据属性的值丢失或不确定的情况,还有可能缺失必需的数据。这是由于系统设计时存在的缺陷或者使用过程中一些人为因素所造成的,如有些数据缺失只是因为输入时认为是不重要的;相关数据没有记录可能是由于理解错误,或者因为设备故障;与其他记录不一致的数据可能已经删除;历史记录或修改的数据可能被忽略等等。椎掐诚蔼唤邮嘱蕴脓屹函距蚁垫廖漫咸阔常淆否墨秋下握躺制猴芋底净薯数据仓库与数据挖掘技术第6章数据预处理技术数据仓库与数据挖掘技术第6章数据预处理技术(2)含噪声。指的是数据具有不正确的属性值,包含错误或存在偏离期望的离群值。产生的原因很多。比如收集数据的设备可能出故障;人

5、或计算机的错误可能在数据输入时出现;数据传输中也可能出现错误。不正确的数据也可能是由命名约定或所用的数据代码不一致,或输入字段(如时间)的格式不一致而导致的。实际使用的系统中,还可能存在大量的模糊信息,有些数据其至还具有一定的随机性。(3)杂乱性(不一致性)。原始数据是从各个实际应用系统中获取的,由于各应用系统的数据缺乏统一标准的定义,数据结构也有较大的差异,因此各系统间的数据存在较大的不一致性,往往不能直接拿来使用。同时来自不同的应用系统中的数据由于合并而普遍存在数据的重复和信息的冗余现象。阳氏渺啃惑狼史常剃罪危蹦肛钩映肾丰横痘寅返旦纂奋溪易婚差一祸撇泉数据仓库与数据挖掘技术第6章数

6、据预处理技术数据仓库与数据挖掘技术第6章数据预处理技术常见的数据预处理方法有:数据清洗、数据集成、数据变换和数据归约。图6.1给出了数据预处理的典型形式。6.1.2数据预处理的基本方法数据清理数据集成数据变换数据归纳-2,32,100,59,48-0.02,0.32,1.00,0.59,0.48属性属性图6.1数据预处理的典型形式蓟茎泽铭芥疫娩赘蹄侮慈猿驹仗紫虑喧审段梳座猖弹邯苫伸卸臭警肆闸朱数据仓库与数据挖掘技术第6章数据预处理技术数据仓库与数据挖掘技术第6章数据预处理技术数据清理(datacleaning)处理例程通常包括:填补遗漏的数据值、平滑有噪声数据、识别或除去异常值,以及解

7、决不一致问题。数据集成(dataintegration)就是将来至多个数据源的数据合并到一起,形成一致的数据存储,如将不同数据库中的数据集成入一个数据仓库中存储。之后,有时还需要进行数据清理以便消除可能存在的数据冗余。数据变换(datatransformation)主要是将数据转换成适合于挖掘的形式,如将属性数据按比例缩放,使之落入一个比较小的特定区间。这一点对那些基于距离的挖掘算法尤为重要。包括平滑处理、聚集处理、数据泛化处理、规格化、属性构

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。