第七讲数据预处理ppt课件.ppt

第七讲数据预处理ppt课件.ppt

ID:59489217

大小:822.50 KB

页数:70页

时间:2020-09-13

第七讲数据预处理ppt课件.ppt_第1页
第七讲数据预处理ppt课件.ppt_第2页
第七讲数据预处理ppt课件.ppt_第3页
第七讲数据预处理ppt课件.ppt_第4页
第七讲数据预处理ppt课件.ppt_第5页
资源描述:

《第七讲数据预处理ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第七讲数据预处理1目录为什么要预处理数据描述性数据汇总数据清理数据集成与变换数据归约离散化和概念分层生成小结2一、为什么需要数据预处理?现实世界中的数据是“肮脏”的不完整:缺乏必要的属性值,缺乏感兴趣的属性,或仅包含聚集数据e.g.,occupation=“”含噪声的:包含错误或存在偏离期望的孤立点e.g.,Salary=“-10”不一致:编码或命名不一致e.g.,Age=“42”Birthday=“03/07/1997”e.g.,Wasrating“1,2,3”,nowrating“A,B,C”3数据为什么会“肮脏”不完整的数据来自收集数据时,部分

2、数据不可得数据收集和数据分析时考虑的角度不同人为、软硬件问题含噪声数据来自数据的处理过程收集输入传输不一致的数据来自:不同的数据源不遵守数据间存在的依赖关系4为什么数据预处理很重要没有高质量的数据,就不会有高质量的挖掘结果高质量的决策必须建立在高质量的数据基础上重复或缺失的数据可能导致不正确甚至误导的统计结果数据仓库需要对数据进行一致的集成数据抽取,清理与变换是创建数据仓库的主要工作—BillInmon(TheFatherofDataWarehousing)5数据预处理的主要任务数据清理填充缺失数据,平滑噪声数据,识别或剔除孤立点,解决不一致问题数据

3、集成对多个数据库、数据立方体或文件做集成数据转换规范化与聚集数据归约得到数据集的压缩表示,它小的多,但可以得到相同或相近的结果。数据离散化数据归约的一部分,通过概念分层和数据离散化来归约数据,对数据型数据特别重要6数据预处理的形式7目录为什么要预处理数据描述性数据汇总数据清理数据集成与变换数据归约离散化和概念分层生成小结8二、数据的中心趋势与离散特征动机:获得数据的总体印象至关重要度量数据的中心趋势度量数据的离散程度基本描述数据汇总的图形显示9度量中心趋势(算术)平均值Mean加权(算术)平均中位数Median:一种整体度量假定数据集的值是有序的,如

4、果值个数是奇数,则中位数是有序集合的中间值,否则,中位数是中间两个数的平均值在大型数据库中由插值得到近似的中位数10众数(模)Mode众数是集合中出现频率最高的值当最高频率对应多个不同值时,导致多个模,如单模态(nimodal),双模态(bimodal),三模态(trimodal),也可能没有模经验公式11Symmetricvs.SkewedDataMedian,meanandmodeofsymmetric,positivelyandnegativelyskeweddata12度量数据的离散度数值数据趋向离散的程度称为数据的离散度或方差四分位数(Qu

5、artiles)、孤立点(outliers)与盒图(boxplots)四分位数:Q1(第25个百分数),Q3(第75个百分数)中间四分位数区间:IQR=Q3–Q1五数概括(Fivenumbersummary):min,Q1,M,Q3,max孤立点:识别孤立点的常用规则是:挑出落在至少高于第三个四分位数或低于第一个四分位数1.5*IQR处的值13盒图分析盒图数据被表示为一个盒盒的端点在第一个和第三个四分位数上,使得盒的长度是中间四分位数区间IQR中位数用盒内的线标记盒外的两条线延伸到最小和最大观测值14方差(Variance)与标准差(standard

6、deviation)方差s2:(代数度量,在大型数据库中可伸缩的)标准差s是方差s2的平方根度量关于平均值的的离散,仅当选择平均值作为中心度量时使用仅当不存在离散(即所有观测值都相等)时,s=0,否则s>015基本统计类描述的图形显示直方图(频率直方图)一种单变量图像方法由一组矩形组成,这些矩形反映了类在给定数据中出现的计数或频率16分位数图QuantilePlot显示所有数据(允许用户评估总的情况和不寻常的出现)。绘出分位数信息对于从小到大排序的数据中的Xi,fi指出大约100fi%的数据小于等于xi17分位数-分位数图(Q-Q图)对着另一个的对应

7、分位数,绘制一个单变量分布的分位数。允许用户观察从一个分布到另一个是否有移位分店1的商品单价趋向于比分店2低18散布图(Scatterplot)确定两个数值属性之间看上去是否有联系、模式或趋势。一眼就能看出双变量数据在整个平面的分布,如,点的聚类,异常点等每个值对被看成一个代数坐标对,并作为一个点画在平面上数据量增大时,散布图的有效性降低19Loess曲线Loess:localregression局部回归添加一条平滑曲线到散步图上,以便更好地理解依赖模式Loess曲线的拟合需要设置两个参数:平滑参数,被回归拟合的多项式的阶20Positivelyan

8、dNegativelyCorrelatedData21GraphicDisplaysofBasicStati

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。