数据仓库与数据挖掘基础第3章数据预处理(赵志升)doc资料.ppt

数据仓库与数据挖掘基础第3章数据预处理(赵志升)doc资料.ppt

ID:59593615

大小:119.00 KB

页数:50页

时间:2020-11-14

数据仓库与数据挖掘基础第3章数据预处理(赵志升)doc资料.ppt_第1页
数据仓库与数据挖掘基础第3章数据预处理(赵志升)doc资料.ppt_第2页
数据仓库与数据挖掘基础第3章数据预处理(赵志升)doc资料.ppt_第3页
数据仓库与数据挖掘基础第3章数据预处理(赵志升)doc资料.ppt_第4页
数据仓库与数据挖掘基础第3章数据预处理(赵志升)doc资料.ppt_第5页
资源描述:

《数据仓库与数据挖掘基础第3章数据预处理(赵志升)doc资料.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据仓库与数据挖掘基础第3章数据预处理(赵志升)2、数据预处理的基本方法:数据清理:除去噪声,纠正不一致性。数据集成:将多种数据源合并成一致的数据存储。数据变换:即规范化,可以改进距离度量的挖掘算法的精度和有效性。数据归约:通过聚集、删除冗余特性或聚类方法来压缩数据。第一节数据预处理的意义第一节数据预处理的意义3、数据预处理的意义改进数据质量,提高其后的挖掘过程的精度和性能。高质量的决策依赖于高质量的数据,数据预处理是知识发现过程的重要步骤。检测数据异常、尽早调整数据,并归约待分析数据,将得到较高决策回报。第二节数据清理现实世界的数据

2、一般是含噪声的、不完整的、不一致的。数据清理例程试图填充空缺的值,识别孤立点、消除噪声,并纠正数据中的不一致。第二节数据清理1、空缺值忽略元组人工填写空缺值使用一个全局常量填充空缺值使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值第二节数据清理2、噪声数据噪声是一个测量变量中的随机错误或偏差。对于噪声通常采用数据平滑技术去除噪声。分箱(binning)聚类(clustering)回归(regression)第二节数据清理2、噪声数据分箱:通过考察周围的值来平滑存储数据的值,存储的值被分布到一些

3、“桶”或箱中。按箱平均值平滑按箱中值平滑按箱边界平滑第二节数据清理2、噪声数据聚类:孤立点可以被聚类检测。聚类将类似的值组织成群或“聚类”,聚类集合之外的值被视为孤立点。第二节数据清理2、噪声数据回归:通过让数据适合一个函数(回归函数)来平滑数据。线性回归:找出适合两个变量的“最佳”直线,使得一个变量能够预测另一个。多线性回归:是线性回归的扩展,它涉及多于两个变量,数据要适合一个多维面。第二节数据清理3、不一致数据对于有些事务,记录数据的不一致数据集成可能造成数据的不一致可以采用人工干预更正,以及知识工程工具来检测违反限制和规则的数据

4、。第三节数据集成与变换数据挖掘经常需要:数据集成:由多个数据存储合并数据数据转换:将数据转换成适于挖掘的形式第三节数据集成与变换1、数据集成数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储中。这些数据源可以包括多个数据库、数据立方体或一般文件。第三节数据集成与变换1、数据集成模式集成:可以通过元数据避免错误。冗余:属性的冗余以及元组重复。数据值冲突的检测与处理:不同数据源的属性值不同。第三节数据集成与变换2、数据变换数据变换将数据转换成适合挖掘的形式,主要有:平滑:除去数据中的噪声,如分箱、聚类和回归。聚集:对数据进行汇

5、总和聚集。数据概化:使用概念分层,用高层概念替换低层“原始”数据。规范化:将属性数据按比例缩放,使之落入一个小的特定区间。属性构造:构造新的属性并添加到属性集中,以利挖掘。第四节数据归约数据归约技术可以用来得到数据集的归约表示,虽然它很小,但仍接近于保持原数据的完整性。这样,在归约后的数据集上挖掘将更有效,并产生相同或几乎相同的分析结果。第四节数据归约数据归约的策略有:数据立方体聚集:维归约数据压缩数值压缩离散化和概念分层生成第四节数据归约1、数据立方体聚集年=2002年=2001年=2000季度销售额Q1Q2Q3Q4¥3600¥44

6、30¥4250¥5700年销售额200020012002¥17980¥16238¥19650第四节数据归约1、数据立方体聚集基本方体:创建在最低层的数据立方体。顶点方体:最高层抽象的数据立方体。方体:对不同层创建的数据立方体。方体的格:数据立方体可以看作方体的格。第四节数据归约2、维归约用于数据分析的数据可能包含数以百计的属性,其中大部分属性与挖掘任务不相关,是冗余的。维归约通过删除不相关的属性(或维)减少数据量。基本采用属性子集选择方法。属性子集选择的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性的原分布。第四节

7、数据归约2、维归约d个属性有2d个可能的子集,通过穷举搜索找出属性的最佳子集可能是不现实的,通常使用压缩搜索空间的启发式算法,这些算法是贪心算法,在搜索属性空间时,总是做看上去是最佳的选择。其含义是由局部最优选择,期望由此导致全局最优选择。实际应用中,贪心算法是有效的,并可以逼近最优解。第四节数据归约2、维归约属性子集选择的基本启发式方法包括的技术有:逐步向前选择逐步向后删除向前选择和向后删除的结合判定树归纳第四节数据归约2、维归约逐步向前选择:由空集开始,选择属性集中最好的属性,并将其添加到该集合中。随后每次迭代,将原属性集剩下的属

8、性中的最好的属性添加到该集合中。逐步向后删除:由整个属性集开始,每一步删除掉尚在属性集中的最坏的属性。第四节数据归约2、维归约向前选择和向后删除的结合:向前选择和向后删除方法的结合,每一步选择一个最好的属性,并在剩余属性

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。