欢迎来到天天文库
浏览记录
ID:57001791
大小:269.50 KB
页数:54页
时间:2020-07-26
《数据预处理课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第2章数据预处理1主要内容2.1为什么要预处理数据2.2描述性数据汇总2.3数据清理2.4数据集成和变换2.5数据归约2.6数据离散化和概念分层产生22.1数据预处理的原因正确性(Correctness)一致性(Consistency)完整性(Completeness)可靠性(Reliability)数据质量的含义3现实世界的数据不完整的缺少属性值或某些感兴趣的属性,或仅包含聚集数据。含噪声的包含错误或存在偏离期望的离群值。不一致的采用的编码或表示不同,如属性名称不同冗余的如属性之间可以相互导出数据错误的不
2、可避免性数据输入和获得过程数据错误数据集成所表现出来的错误数据传输过程所引入的错误据统计有错误的数据占总数据的5%左右[Redmen],[Orr98]5数据错误的危害性高昂的操作费用糟糕的决策制定组织的不信任分散管理的注意力数据预处理的形式数据清理补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致数据集成集成多个数据库、数据立方或文件数据变换规范化和聚集数据归约简化数据、但产生同样或相似的结果7数据预处理的形式小结现实世界的数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量,从而有助
3、于提高其后的挖掘过程的精度和性能。高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。检测异常数据、尽早地调整数据并归约待分析的数据,将在决策过程中得到高回报。2.2描述性数据汇总获得数据的总体印象对于成功的数据预处理是至关重要的。描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据值应当视为噪声或离群点。动机:更好的理解数据。主要内容:度量数据的中心趋势和离散程度、描述数据汇总的图形显示。2.2.1度量数据的中心趋势算数平均值最常用分布式度量可以通过如下方法计算度量(即函数)
4、:将数据集划分成较小的子集,计算每个子集的度量,然后合并计算结果,得到原(整个)数据集的度量值。sum()、count()、min()、max()2.2.1度量数据的中心趋势…代数度量可以通过应用一个代数函数于一个或多个分布度量计算的度量。mean()、中列数整体度量必须对整个数据集计算的度量。中位数、众数代数度量mean():加权平均:截断均值:去掉高、低极端值得到的均值。减小极端值对均值的影响。中列数(midrange):(max+min)/2整体度量中位数(median):适用于倾斜的数据。近似值计算
5、如下:设N个数值排序,若N为奇数,中位数是有序集的中间值;若N为偶数,中位数是中间两个值的平均值。例如:1,3,5,7中位数41,3,5,6,7中位数5整体度量众数(mode):集合中出现频率最高的值。单峰、多峰(双峰、三峰…)、无众数对于适度倾斜的单峰频率曲线,有如下的经验关系:中位数、均值和众数16极差最大值与最小值之差四分位数中位数是第50个百分位数,是第2个四分位数第1个是第25个百分位数,Q1中间四分位数极差IQR=Q3–Q1离群点outlier与数据的一般行为或模型不一致的数据对象盒图方差、标准
6、差反映了每个数与均值相比平均相差的数值2.2.2度量数据的离散程度17度量数据的离散程度…盒图boxplot,也称箱线图从下到上五条线分别表示最小值、下四分位数Q1、中位数、上四分位数Q3和最大值盒的长度等于IRQ中位数用盒内的横线表示盒外的两条线(胡须)分别延伸到最小和最大观测值。盒图的功能1.直观明了地识别数据集中的离群点2.判断数据集的偏态和尾重3.比较几批数据的形状直方图、分位数图、分位数-分位数图(q-q图)散布图、散布图矩阵局部回归(Loess)曲线2.2.3基本描述数据汇总的图形显示22直方图
7、Histogram概括给定属性分布的图形方法每个矩形等宽分位数图QuantilePlot观察单变量数据分布的简单有效方法散布图scatterplot直接观察是否存在簇(cluster),离群点等每个点对应一个坐标对局部回归(Loess)曲线添加一条光滑曲线到散布图2.3数据清理现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理的任务:填充缺失的值,光滑噪声并识别离群点,纠正数据中的不一致。忽略元组人工填写空缺值使用一个全局常量填充空缺值使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均
8、值使用最可能的值填充空缺值2.3.1缺失值28分箱:通过考察数据的“近邻”(周围的值)来光滑有序数据的值。局部光滑。回归:用一个函数(回归函数)拟合数据来光滑数据。聚类:将类似的值聚集为簇。其他:如数据归约、离散化和概念分层。2.3.2噪声数据2930分箱:通过考察数据的“近邻”(周围的值)来光滑有序数据的值。局部光滑。划分:等频、等宽光滑:用箱均值、用箱中位数、用箱边界(去替换箱中的每个数据)2.3.2噪声数据
此文档下载收益归作者所有