数据挖掘chapter3数据预处理

ID：14282876

大小：294.00 KB

页数：22页

时间：2018-07-27

资源描述：

《数据挖掘chapter3数据预处理》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、第三章数据预处理当今现实世界中的数据库极易受噪音数据、遗漏数据和不一致性数据的侵扰，因为数据库太大，常常多达数千兆，甚至更多。“如何预处理数据，提高数据质量，从而提高挖掘结果的质量？”你可能会问。“怎样预处理数据，使得挖掘过程更加有效、更加容易？”有大量数据预处理技术。数据清理可以去掉数据中的噪音，纠正不一致。数据集成将数据由多个源合并成一致的数据存储，如数据仓库或数据方。数据变换（如规范化）也可以使用。例如，规范化可以改进涉及距离度量的挖掘算法的精度和有效性。数据归约可以通过聚集、删除冗余特征或聚类等方法来压缩数据

2、。这些数据处理技术在数据挖掘之前使用，可以大大提高数据挖掘模式的质量，降低实际挖掘所需要的时间。本章，你将学习数据预处理的方法。这些方法包括：数据清理、数据集成和转换、数据归约。本章还讨论数据离散化和概念分层，它们是数据归约的一种替换形式。概念分层可以进一步用于多抽象层挖掘。你将学习如何由给定的数据自动地产生概念分层。3.1为什么要预处理数据？想象你是AllElectronics的经理，负责分析涉及你部门的公司数据。你立即着手进行这项工作。你仔细地研究和审查公司的数据库或数据仓库，找出应当包含在你的分析中的属性或维，

3、如item,price和units_sold。啊！你注意到，许多元组在一些属性上没有值。对于你的分析，你希望知道每种销售商品是否通过广告降价销售，但你又发现这些信息根本未记录。此外，你的数据库系统用户已经报告一些错误、不寻常的值和某些事务记录中的不一致性。换言之，你希望使用数据挖掘技术分析的数据是不完整的（有些感兴趣的属性缺少属性值，或仅包含聚集数据），含噪音的（包含错误，或存在偏离期望的局外者），并且是不一致的（例如，用于商品分类的部门编码存在差异）。欢迎来到现实世界！存在不完整的、含噪音的和不一致的数据是大型的、

4、现实世界数据库或数据仓库的共同特点。不完整数据的出现可能有多种原因。有些感兴趣的属性，如销售事务数据中顾客的信息，并非总是可用的。其它数据没有包含在内，可能只是因为输入时认为是不重要的。相关数据没有记录是由于理解错误，或者因为设备故障。此外，记录历史或修改的数据可能被忽略。与其它数据不一致的数据可以删除。遗漏的数据，特别是某些属性上缺少值的元组可能需要推导出来。数据含噪音（具有不正确的属性值）可能有多种原因。收集数据的设备可能出故障；人的或计算机的错误可能在数据输入时出现；数据传输中的错误也可能出现。这些可能是由于技

5、术的限制，如用于数据传输同步的缓冲区大小的限制。不正确的数据也可能是由命名或所用的数据代码不一致而导致的。重复元组也需要数据清理。数据清理例程通过填写遗漏的值，平滑噪音数据，识别、删除局外者，并解决不一致来“清理”数据。脏数据造成挖掘过程陷入困惑，导致不可靠的输出。尽管大部分挖掘例程都有一些过程，处理不完整或噪音数据，但它们并非总是强壮的。相反，它们更致力于避免数据过分适合所建的模型。这样，一个有用的预处理步骤是使用某些清理例程清理你的数据。3.2节讨论清理数据的方法。回到你在AllElectronics的任务，假定

6、你想在你的分析中包含来自多个数据源的数据。这涉及集成多个数据库、数据方或文件，即数据集成。代表同一概念的属性在不同的数据库中可能具有不同的名字，这又导致不一致性和冗余。例如，关于顾客标识符的属性在一种数据存储中为customer_id，而在另一种为cust_id。命名的不一致还可能出现在属性值中。例如，同名的人可能在一个数据库中登记为Bill，在第二个数据库中登记为William，而在第三个数据库中登记为“B”。此外，你可能会觉察到，有些属性可能是由其它属性导出的（例如，年收入）。含大量冗余数据可能降低知识发现过程的

7、性能或使之陷入困惑。显然，除数据清理之外，必须采取步骤，避免数据集成时的冗余。通常，在为数据仓库准备数据时，数据清理和集成将作为预处理步骤进行。还可以再次进行数据清理，检测和移去可能由集成导致的冗余。回到你的数据，如果你决定要使用诸如神经网络、最临近分类或聚类神经网络和最临近分类在第7章介绍，而聚类在第8章讨论。这样的基于距离的挖掘算法进行你的分析。如果要分析的数据已规格化，即按比例映射到一个特定的区间[0.0,1.0]，这种方法能得到较好的结果。例如，你的顾客数据包含年龄和年薪属性。年薪属性的取值范围可能比年龄更大

8、。这样，如果属性未规格化，在年薪上距离度量所取的权重一般要超过在年龄度量上所取的权重。此外，对于你的分析，得到每个地区的销售额这样的聚集信息可能有用的。这种信息不在你的数据仓库的任何预计算的数据方中。你很快意识到，数据变换操作，如规格化和聚集，是导向挖掘过程成功的预处理过程。数据集成和数据变换将在3.3节讨论。随着你进一步考虑数据，你想知道“我

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 22



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

数据挖掘chapter3数据预处理

数据挖掘chapter3数据预处理

相关文章

相关标签