数学建模-数据预处理

数学建模-数据预处理

ID:34106279

大小:800.63 KB

页数:57页

时间:2019-03-03

数学建模-数据预处理_第1页
数学建模-数据预处理_第2页
数学建模-数据预处理_第3页
数学建模-数据预处理_第4页
数学建模-数据预处理_第5页
资源描述:

《数学建模-数据预处理》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第22章数据预处理1第22章::数据预处理�为什么预处理数据?�数据清理�数据集成�数据归约�离散化和概念分层产生�小结2为什么数据预处理??�现实世界中的数据是脏的�不完全:缺少属性值,缺少某些有趣的属性,或仅包含聚集数据�例,occupation=“”�噪音:包含错误或孤立点�例,Salary=“-10”�不一致:编码或名字存在差异�例,Age=“42”Birthday=“03/07/2010”�例,以前的等级“1,2,3”,现在的等级“A,B,C”�例,重复记录间的差异3数据为什么脏??�不完全数据源于�数据收集时未包含�数据收集和数据分析时的不同考虑.�人/硬件/软件问题�

2、噪音数据源于�收集�录入�变换�不一致数据源于�不同的数据源�违反函数依赖4为什么数据预处理是重要的??�没有高质量的数据,就没有高质量的数据挖掘结果!�高质量的决策必然依赖高质量的数据�例如,重复或遗漏的数据可能导致不正确或误导的统计.�数据仓库需要高质量数据的一致集成�数据提取,清理,和变换是建立数据仓库的最主要的工作—BillInmon5数据质量:一个多维视角�一种广泛接受的多角度:�正确性(Accuracy)�完全性(Completeness)�一致性(Consistency)�合时(Timeliness):timelyupdate?�可信性(Believability)�

3、可解释性(Interpretability)�可存取性(Accessibility)6数据预处理的主要任务�数据清理�填充缺失值,识别/去除离群点,光滑噪音,并纠正数据中的不一致�数据集成�多个数据库,数据立方体,或文件的集成�数据变换�规范化和聚集�数据归约�得到数据的归约表示,它小得多,但产生相同或类似的分析结果:维度规约、数值规约、数据压缩�数据离散化和概念分层7数据预处理的形式8第22章::数据预处理�为什么预处理数据?�数据清理�数据集成�数据归约�离散化和概念分层产生�小结9数据清理DataCleaningDataCleaning�现实世界de数据是脏:很多潜在的不正确

4、的数据,比如,仪器故障,人为或计算机错误,许多传输错误�incomplete:缺少属性值,缺少某些有趣的属性,或仅包含聚集数据�e.g.,职业=“”(missingdata)�noisy:包含错误或孤立点�e.g.,Salary=“-10”(anerror)�inconsistent:编码或名字存在差异,e.g.,�Age=“42”,Birthday=“03/07/2010”�以前的等级“1,2,3”,现在等级“A,B,C”�重复记录间的差异�有意的(e.g.,变相丢失的数据)�Jan.1aseveryone’sbirthday?10如何处理缺失数据?�忽略元组:缺少类别标签时常用

5、(假定涉及分类—不是很有效,当每个属性的缺失百分比变化大时�手工填写缺失数据:乏味+费时+不可行?�自动填充�一个全局常量:e.g.,“unknown”,anewclass?!�使用属性均值�与目标元组同一类的所有样本的属性均值:更巧妙�最可能的值:基于推理的方法,如贝叶斯公式或决策树11噪音数据NoisyData�Noise:被测量的变量的随机误差或方差�不正确的属性值可能由于�错误的数据收集工具�数据录入问题dataentryproblems�数据传输问题datatransmissionproblems�技术限制technologylimitation�不一致的命名惯例inco

6、nsistencyinnamingconvention�其他需要数据清理的问题�重复记录duplicaterecords�数据不完整incompletedata�不一致的数据inconsistentdata12如何处理噪音数据??�分箱Binningmethod:�排序数据,分布到等频/等宽的箱/桶中�箱均值光滑、箱中位数光滑、箱边界光滑,etc.�聚类Clustering�检测和去除离群点/孤立点outliers�计算机和人工检查相结合�人工检查可疑值(e.g.,dealwithpossibleoutliers)�回归Regression�回归函数拟合数据13分箱:简单的离散化方

7、法�等宽度Equal-width(distance)剖分:�分成大小相等的n个区间:均匀网格uniformgrid�若A和B是属性的最低和最高取值,区间宽度为:W=(B–A)/N.�孤立点可能占据重要影响maydominatepresentation�倾斜的数据处理不好.�等频剖分(frequency)/等深:�分成n个区间,每一个含近似相同数目的样本�Gooddatascaling�类别属性可能会非常棘手.14BinningMethodsforDataSmoothi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。