数据挖掘——数据预处理

数据挖掘——数据预处理

ID:19852713

大小:506.50 KB

页数:47页

时间:2018-10-07

数据挖掘——数据预处理_第1页
数据挖掘——数据预处理_第2页
数据挖掘——数据预处理_第3页
数据挖掘——数据预处理_第4页
数据挖掘——数据预处理_第5页
资源描述:

《数据挖掘——数据预处理》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘与知识发现 (复杂数据对象的数据挖掘与知识发现)4数据挖掘的预处理数据挖掘的困难所在NoiseSkeweddistributionMissingvalues(incompleteinfo)ScalabilityHighdimensionalityBiasindata...预处理在知识发现中所占份量预处理各种不同的数据源和数据对象数据的选择、集成与整合,对问题进行限定数据库中的数据具有噪声、缺值、不易至数据的去噪和规范化问题,提高挖掘精度数据的变换规范化、映射到不同的空间,提高挖掘效率数据的规约取出冗余、属性聚类来压

2、缩数据数据的预处理是KDD&DM的重要步骤预处理的基本功能预处理主要是接受并理解KDD要求,确定发现任务抽取与发现任务相关的数据源,根据背景知识中的约束性规则对数据进行合法性检查通过清理和归约等操作,生成供挖掘核心使用的目标数据。它汇集了原始数据库中与发现有关的所有数据的总体特征,是知识发现状态空间的基底。4数据挖掘的预处理4.1数据选择与集成4.2数据清理4.4数据归约4.4数据变换4.5数据离散4.1数据选择分析需求和应用,了解业务背景确定分析主题数据库或数据仓库中选择索要分析的数据利用数据转换工具进行分析处理4.1数

3、据集成将多文件或多数据库运行环境中的异构数据进行合并处理,解决语义的模糊性。解决数据的冲突问题以及不一致数据的处理问题。数据来自多个系统,存在着异构数据的转换问。多个数据源的之间还存在许多不一致的地方,如命名、结构、单位、含义等。因此,数据集成并非是简单的数据合并,而是把数据进行统一化和规范化处理的复杂过程。需要统一原始数据中的所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致等,把原始数据在最低层次上加以转换、提炼和聚集。数据集成中还应考虑数据类型的选择问题,尽量选择占物理空间较小的数据类型。4.1数据集成

4、——冗余冗余的原因:数据库设计,不同来源的数据引起的数据的相关性冗余检验:属性的相关性——属性A,B其相关性度量4.2数据清理4.1数据选择与集成4.2数据清理4.4数据归约4.4数据变换4.5数据离散4.2数据清理数据清理要去除源数据集中的噪声和无关数据处理遗漏数据和清洗脏数据去除空白数据域和知识背景上的白噪声考虑时间顺序和数据变化等,主要包括重复数据处理和缺值数据处理完成一些数据类型的转换。4.2数据清理数据清理可以分为有监督和无监督有监督过程是在领域专家的指导下,分析收集的数据,去除明显错误的噪音数据和重复记录,填补

5、缺值数据;无监督过程是用样本数据训练算法,使其获得一定的经验,并在以后的处理过程中自动采用这些经验完成数据清理工作。4.2数据清理另一个重要内容是数据类型的转换,通常是指连续属性的离散化离散化方法有等距区间法、等频区间法和最大熵法。通过离散化,可以有效地减少数据表的大小,提高分类准确性。4数据挖掘的预处理4.1数据库与数据仓库4.2数据选择与集成4.3数据清理4.4数据归约4.5数据变换4.6数据离散4.4数据规约有些数据属性对发现任务是没有影响的,这些属性的加入会大大影响挖掘效率,甚至还可能导致挖掘结果的偏差。简化是在对

6、发现任务和数据本身内容理解的基础上,寻找依赖于发现目标的表达数据的有用特征,以缩减数据规模,从而在尽可能保持数据原貌的前提下最大限度地精简数据量。4.4数据规约主要有两个途径:属性选择和数据抽样,分别针对数据库中的属性和记录。属性选择包括针对属性进行剪枝、并枝、找相关等操作。数据抽样是进行数据记录之间的相关性分析,用少量的记录基底的线性组合来表示大量的记录。它主要得用统计学中的抽样方法如简单随机抽样、等距抽样、分层抽样等。4.4数据规约——基于粗糙集理论的约简法粗糙集(RoughSet,RS)一种研究不精确、不确定性知识的

7、数据学工具,目前受到了KDD研究者的广泛重视,用RS理论对数据时行处理是一种十分有效的精简数据维数的方法。我们所处理的数据一般存在信息的含糊性问题,含糊性有三种,术语的模糊性,知识自身的不确定性;数据的不确定性。4.4数据规约——基于粗糙集理论的约简法粗糙集(RoughSet,RS)RS理论的最大特点是无需提供问题所需处理的数据集合之外的任何先验信息,其基本思路是利用定义在数据集合U上等价关系对U进行划分。对于数据表来说,这种等价关系可以是某个属性,或者是几个属性的集合。因此按照不同属性的组合就把数据表划分成不同的基本类。

8、在这些基本类的基础上进一步求得最小约简集。4.4数据规约——基于粗糙集理论的约简法粗糙集(RoughSet,RS)采用RS理论作为数据预处理方法具有许多的优点:不需要预先知道额外信息;算法简单、易于操作。应用RS的属性约简可以有效地去除冗余现象,同样可以应用RS方法中的约简技术删除某些属性的多余值,从而

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。