学习笔记5:数据预处理与数据挖掘十大经典算法.doc

学习笔记5:数据预处理与数据挖掘十大经典算法.doc

ID:59524435

大小:21.00 KB

页数:11页

时间:2020-11-07

学习笔记5:数据预处理与数据挖掘十大经典算法.doc_第1页
学习笔记5:数据预处理与数据挖掘十大经典算法.doc_第2页
学习笔记5:数据预处理与数据挖掘十大经典算法.doc_第3页
学习笔记5:数据预处理与数据挖掘十大经典算法.doc_第4页
学习笔记5:数据预处理与数据挖掘十大经典算法.doc_第5页
资源描述:

《学习笔记5:数据预处理与数据挖掘十大经典算法.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、学习笔记5:数据预处理与数据挖掘十大经典算法前言在介绍了数据挖掘的一般流程、常用方法、应用功能和数据可视化之后,在本篇博文中,笔者想要分享一些在数据挖掘开始之前要做的一些事——数据预处理。在第二部分中,笔者整理了数据挖掘中的十大经典算法,与读者们共享。两部分分别从《数据挖掘中数据预处理的方法与技术》一文与网络中引用而来,作为自己和读者朋友们的学习笔记。在第三部分阶段小结中,笔者对近期的学习进行了阶段性的总结。学习笔记5:数据预处理与数据挖掘十大经典算法前言在介绍了数据挖掘的一般流程、常用方法、应用功能和数据可视化之后,在本篇博文中,笔者想要

2、分享一些在数据挖掘开始之前要做的一些事——数据预处理。在第二部分中,笔者整理了数据挖掘中的十大经典算法,与读者们共享。两部分分别从《数据挖掘中数据预处理的方法与技术》一文与网络中引用而来,作为自己和读者朋友们的学习笔记。在第三部分阶段小结中,笔者对近期的学习进行了阶段性的总结。学习笔记5:数据预处理与数据挖掘十大经典算法前言在介绍了数据挖掘的一般流程、常用方法、应用功能和数据可视化之后,在本篇博文中,笔者想要分享一些在数据挖掘开始之前要做的一些事——数据预处理。在第二部分中,笔者整理了数据挖掘中的十大经典算法,与读者们共享。两部分分别从《数

3、据挖掘中数据预处理的方法与技术》一文与网络中引用而来,作为自己和读者朋友们的学习笔记。在第三部分阶段小结中,笔者对近期的学习进行了阶段性的总结。一、数据预处理现实中数据大多数都是不完整、不一致的,无法直接进行数据挖掘,或直接影响了挖掘结果。为了提高数据挖掘质量和数据挖掘效率,产生了数据预处理技术。对数据进行预处理,不但可以节约大量的空间和时间而且得到的挖掘结果能更好地起到决策和预测作用。数据预处理一般包括:数据清理,数据集成,数据变换,数据归约等方法。这些数据预处理技术根据数据挖掘项目的需要和原始数据的特点,在数据挖掘之前有选择的单独使用或

4、综合使用,可大大提高数据挖掘模式的质量,降低实际挖掘所需要的时间。数据预处理技术整理如下:1、数据清理数据清理是数据预处理中最花费时间、最乏味的,但也是最重要的一步。该步骤可以有效地减少学习过程中可能出现相互矛盾的情况。数据清理主要处理缺失数据,噪声数据,识别、删除孤立点。数据清理的基本方法有:(1)缺失数据处理:目前最常用的方法是使用最可能的值填充缺失值,比如可以用回归、贝叶斯形式化方法工具或判定树归纳等确定缺失值。这类方法依靠现有的数据信息来推测缺失值,使缺失值有更大的机会保持与其他属性之间的联系。还有其他一些方法来处理缺失值,如用一个

5、全局常量替换缺失值、使用属性的平均值填充缺失值或将所有元组按某些属性分类,然后用同一类中属性的平均值填充缺失值。如果缺失值很多,这些方法可能误导挖掘结果。如果缺失值很少,可以忽略缺失数据。(2)噪声数据处理:噪声是一个测量变量中的随机错误或偏差,包括错误的值或偏离期望的孤立点值。目前最广泛的是应用数据平滑技术处理,具体包括:分箱技术,将存储的值分布到一些箱中,用箱中的数据值来局部平滑存储数据的值。具体可以采用按箱平均值平滑、按箱中值平滑和按箱边界平滑;回归方法,可以找到恰当的回归函数来平滑数据。线性回归要找出适合两个变量的“最佳”直线,使得

6、一个变量能预测另一个。多线性回归涉及多个变量,数据要适合一个多维面;计算机检查和人工检查结合方法,可以通过计算机将被判定数据与已知的正常值比较,将差异程度大于某个阈值的模式输出到一个表中,然后人工审核表中的模式,识别出孤立点;聚类技术,将类似的值组织成群或“聚类”,落在聚类集合之外的值被视为孤立点。孤立点可能是垃圾数据,也可能为我们提供重要信息。对于确认的孤立点垃圾数据将从数据库中予以清除。2、数据集成数据集成就是将多个数据源中的数据合并存放在一个同一的数据存储(如数据仓库、数据库等)的一种技术和过程,数据源可以是多个数据库、数据立方体或一

7、般的数据文件。数据集成涉及3个问题:模式集成。涉及实体识别,即如何将不同信息源中的实体匹配来进行模式集成。通常借助于数据库或数据仓库的元数据进行模式识别;冗余数据集成。在数据集成中往往导致数据冗余,如同一属性多次出现、同一属性命名不一致等。对于属性间冗余,可以先采用相关性分析检测,然后删除;数据值冲突的检测与处理。由于表示、比例、编码等的不同,现实世界中的同一实体,在不同数据源的属性值可能不同。这种数据语义上的歧义性是数据集成的最大难点,目前没有很好的办法解决。3、数据变换数据变换是采用线性或非线性的数学变换方法将多维数据压缩成较少维数的数

8、据,消除它们在时间、空间、属性及精度等特征表现方面的差异。这方法虽然对原始数据都有一定的损害,但其结果往往具有更大的实用性。常见数据变换方法如下:数据平滑:去除数据中的噪声数据,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。