韩家炜:数据挖掘:概念与技术——第3章ppt.ppt

韩家炜:数据挖掘:概念与技术——第3章ppt.ppt

ID:56295224

大小:1.42 MB

页数:119页

时间:2020-06-10

韩家炜:数据挖掘:概念与技术——第3章ppt.ppt_第1页
韩家炜:数据挖掘:概念与技术——第3章ppt.ppt_第2页
韩家炜:数据挖掘:概念与技术——第3章ppt.ppt_第3页
韩家炜:数据挖掘:概念与技术——第3章ppt.ppt_第4页
韩家炜:数据挖掘:概念与技术——第3章ppt.ppt_第5页
资源描述:

《韩家炜:数据挖掘:概念与技术——第3章ppt.ppt》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第3章数据预处理2014-11目录3.1数据预处理:概览3.2数据清洗3.3数据聚合3.4数据删减3.5数据转换和数据离散化3.6总结数据预处理真实世界中的数据库对噪声、缺失、以及不一致的数据是高度敏感的,因为这些数据常常容量很大,并且很可能是多来源的异质数据。数据的低质量会导致低质量的数据挖掘结果。“如何处理数据,以有助于提到数据的质量和数据挖掘的效果呢?数据被如何处理能够提高挖掘过程的高效性和简易型呢?”这里有几种数据预处理的技术,包括:数据清洗,数据聚合,数据删减,数据转换。这些技术能提升挖掘算法的精确性和效率。它们并非相对独立,是共同工作的。比

2、如,数据清洗也包含数据转化以去除错误数据。3.1数据预处理:概览3.1.1数据质量:为什么做数据预处理?如果数据满足了人们的预期用途的需求,则数据质量好。数据质量包含很多因素,如:精确性、完整性、一致性、时效性、可信性以及可解释性。数据的不精确、不完整以及不一致是大型真实世界数据库以及数据仓库的常见特点。数据的不精确性不精确数据有很多可能的原因:数据收集工具可能错误,数据记录中很多人为的或计算机导致的的错误。用户也可能在值当他们不愿意暴露个人资料的时候在一些强制必须填写的栏目故意提交了错误的资料(如生日直接用默认值1月1日)。这是一些伪装缺失的数据。数

3、据在传输时也可能出错。一些技术上的限制,例如并行同步数据的传输和计算时缓冲区间的有限性。不正确的数据也可能因为命名习惯或者数据编码的不一致性,或者输入域的格式不一致。重复的元组也需要进行数据清洗。数据的不完整性导致数据的不完整性的原因也有很多:感兴趣的属性并不能总是可获得,比如销售交易数据中的客户资料信息。另外,很可能因为在当时的条目中,该属性被认为是不重要的。相关联的数据没有被记录可能因为误解或者设备故障的原因。不一致的数据和其他数据记录不一致的数据应该被被删掉。另外,数据历史和修改可能被忽视。缺失的数据,特别是缺失了某些属性值的元组,值可能需要被推

4、断。数据质量依赖于人们对数据的预期使用。两个不同的用户可能对一个给定的数据库的质量有不同的评估。比如,一个市场分析员获得了一个由顾客地址列表的数据库。一些地址是过期或错误的,总体上有80%是精确的。市场分析员认为这是一个针对目标市场的很大的客户数据库,对数据的精确性很满意。但是,销售经理可能认为数据是不精确的。数据的时效性时效性也可能影响数据质量:比如你在浏览AllElectronics公式的每月销售奖金的数据分布。一些销售代表在月末的时候没有及时的提交他们的销售记录。在月末之后可能有一些数据的更正和调整。从每个月的时间周期来看,数据库中存放的数据是不

5、完整的。因为月末的数据没有被及时的更新导致了数据质量的负面性影响。数据的可信性和可解释性另外的两个影响数据质量的因素是可信性和可解释性。可信性反映用户有多相信这些数据,可解释性反应数据有多容易被理解。例如一个数据库在某一时刻有一些错误,然后都被更正了。过去的错误导致了销售部门用户的大量问题,因此他们不再相信这些数据。这些数据可能使用了很多会计代码,销售部门不懂如何解释。即使这些数据是精确完整一致和有时效性的,但是仍然被销售部门用户认为是低质量的。3.1.2数据预处理的主要任务数据预处理的主要步骤是:数据清洗数据聚合数据删减数据转换数据清洗数据清洗的工作

6、是清洗数据,通过填写缺失的数据,平滑噪音数据,识别需要去除的离群点,以及解决不一致性。如果用户相信数据是脏数据,便不可能信任数据挖掘的结果。另外,脏数据可能导致挖掘过程中的混乱,导致不可靠的输出结果。即使绝大多数的挖掘方法都有处理数据不完整和噪声的步骤,但仍然不够健壮。通常,这些算法集中避免建模的函数对数据的过度拟合。因此,有用的预处理的步骤是把你的数据通过一些数据清洗的例程工作来完成。数据聚合如果你的分析中数据是多来源的,则需要进行数据聚合工作,即聚合多种数据库,数据立方,以及文件。一个给定概念的属性在不同数据库中可能有不同的命名,导致了不一致性和冗

7、余。例如,顾客的主键属性在一个数据库中是custom_id,在另外的数据库却是cust_id。命名的不一致性也可能发生在属性值的上面。例如,一个数据库中人名的第一个名字是”Bill”,在另一个中是”William”,第三个中是”B”.同时,你怀疑一些属性值是由其他属性值计算的(比如年收入)。有大量的冗余数据会让知识发现过程速度降低以及产生混乱。因此,除了数据清洗,必须采取步骤来避免在数据聚合中出现冗余。通常,数据清洗和数据聚合在为数据仓库准备数据时被整合成一个预处理步骤。在数据清洗之外,在鉴别和去除因聚合导致的冗余数据的步骤。数据删减“我被选做分析的数

8、据集非常大,这确信无疑的会减慢挖掘过程。是否有一个方法能够在不影响数据挖掘的效果的情况下减小数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。