数据预处理分析课件.ppt

数据预处理分析课件.ppt

ID:58233381

大小:228.50 KB

页数:47页

时间:2020-09-05

数据预处理分析课件.ppt_第1页
数据预处理分析课件.ppt_第2页
数据预处理分析课件.ppt_第3页
数据预处理分析课件.ppt_第4页
数据预处理分析课件.ppt_第5页
资源描述:

《数据预处理分析课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据预处理1主要内容2.1为什么要预处理数据2.2数据清理2.3数据集成2.4数据变换2.5数据归约22.1数据预处理的原因现实世界的数据不完整的缺少属性值或某些感兴趣的属性,或仅包含聚集数据。e.g.,occupation=""含噪声的包含错误或存在偏离期望的离群值。e.g.Salary=-10不一致的采用的编码或表示不同e.g.过去的等级:“1,2,3”,现在的等级:“A,B,C”3数据错误的不可避免性数据输入和获得过程数据错误数据传输过程所引入的错误据统计有错误的数据占总数据的5%左右4由于现实世界的数据一般是

2、脏的、不完整的和不一致的,且一些错误不可避免。因此必须先进行预处理,改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。数据预处理的形式数据清理补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致数据集成集成多个数据库、数据立方或文件数据变换规范化和聚集数据归约简化数据、但产生同样或相似的结果6数据预处理的形式2.2数据清理数据清理的任务:填充缺失的值光滑噪声并识别离群点纠正数据中的不一致忽略元组人工填写空缺值:工作量大,可行性低使用一个全局常量填充空缺值:将空缺的属性值用一个常数替代,比如“unknown

3、”使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值:使用回归、贝叶斯公式或者判定树推测空缺值。这是最常用的一种方法。2.2.1如何处理空缺值91.分箱2.回归:通过让数据适应回归函数来平滑数据3.聚类:将类似的值聚集为簇,并且去除孤立点4.计算机和人工检查结合:计算机检测可疑数据,然后对它们进行人工判断2.2.2噪声数据1011分箱法光滑数据price的排序后数据(单位:美元):4,8,15,21,21,24,25,28,34划分为(等深的)箱:箱1:4,8,15箱2:21,

4、21,24箱3:25,28,34用箱平均值平滑:箱1:9,9,9箱2:22,22,22箱3:29,29,29用箱边界平滑:箱1:4,4,15箱2:21,21,24箱3:25,25,34回归xyy=x+1X1Y1Y1’聚类聚类将类似的值聚成簇。直观的,落在簇集合之外的值视为离群点2.3数据集成数据集成合并多个数据源中的数据,存放在一个一致的数据库(如数据仓库)中。源数据可能包括多个数据库,数据立方体或一般文件。数据集成将数据转换或统一成适合于挖掘的形式。1.实体识别e.g.A.cust_id=B.customer_no

5、??元数据可帮助避免错误2.冗余问题比如一个属性可以由另一个表推导出。相关分析3.数据值冲突的检测与处理比如重量属性在一个系统中以公制单位存放,在另一个系统中以英制单位存放。表示、比例或编码不同2.3.1集成需要注意的问题15属性的相关性分析属性A、B之间的相关性可用下式度量:其中,n是元组的个数。(1)如果值>0,则A、B正相关,意味着A的值随B的值增加而增加。该值越大,一个属性蕴含另一个的可能性就越大。因此,一个很大的值表明A(或B)可以作为冗余而被去掉。(2)值=0A和B独立的,不相关(3)值<0负相关,一个属

6、性阻止另一个属性出现平滑:去掉数据中的噪声。技术包括分箱、回归、聚类。聚集:对数据进行汇总或聚集。数据概化:使用概念分层,用高层概念替换低层或“原始”数据。规范化:将属性数据按比例缩放,使之落入一个小的特定区间。最小-最大、Z-Score、小数定标规范化。属性构造(特征构造):由给定的属性构造新的属性并添加到属性集中,以帮助挖掘过程。可以帮助提高准确率和对高维数据结构的理解。2.4数据变换17规范化1)最小-最大规范化:将原始数据v经线性变换,映射到区间[new_minA,new_maxA]例如:income的最大,

7、最小值分别为9000,2000,则将它的值映射到[0,1]时,若income的值6800规范后为:(6800-2000)/(9000-2000)*(1-0)+0=0.686规范化2)z-score规范化(零均值规范化):属性A的值基于A的平均值和标准差规范化。在最大最小值未知适用3)小数定标规范化其中,j是使Max(

8、

9、)<1的最小整数示例:假设属性A的取值范围是从-986到917。属性A绝对值的最大值为986。采用十基数变换规格化方法,就是将属性A的每个值除以1000(即j=3)因此-986映射为-0.986。2

10、.5数据归约DataReduction什么是数据归约?所谓数据规约,也就是数据消减,目的是缩小所挖掘数据的规模,但却不会影响(或基本不影响)最终的挖掘结果为什么需要进行数据归约?1)数据仓库中往往存有海量数据2)在整个数据集上进行复杂的数据分析与挖掘需要很长的时间数据归约策略(1)数据立方体聚集:对数据立方体做聚集操作(2)维归约:检测并删除不

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。