CH3-第1讲数据预处理

CH3-第1讲数据预处理

ID:40838003

大小:235.96 KB

页数:31页

时间:2019-08-08

CH3-第1讲数据预处理_第1页
CH3-第1讲数据预处理_第2页
CH3-第1讲数据预处理_第3页
CH3-第1讲数据预处理_第4页
CH3-第1讲数据预处理_第5页
资源描述:

《CH3-第1讲数据预处理》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、知识发现过程数据清理数据集成数据选择数据变换数据挖掘模式评估知识表示数据挖掘过程数据维护(数据准备)定义主题读入数据并建立模型理解模型预测数据准备获取数据限定数据范围数据质量数据导出获取数据(数据提取)从多个异种的外部数据源收集数据数据清洗数据并不总是“干净”的。如:“pepsi”,“pepsicola”,“cola”可能代表同一饮料(一致性问题)输入拼写错误邮寄清单中人员地址的变动(未及时更新)数据清理可以去除数据中的噪音,纠正不一致。数据清洗(清理)的主要内容数据清洗试图填充空缺的值,识别孤立点、消除噪声,并纠正数据中的不一致

2、。主要处理内容:空缺值噪声数据不一致数据空缺值处理(1)许多元组的一些属性,没有记录值。忽略元组除非元组有多个属性缺少值,否则该方法不是很有效。人工填写空缺值费时,数据集很大,缺值很多时行不通。使用一个全局常量填充空缺值,如unknown该方法简单,但挖掘程序会误以为它们形成一个有趣的概念,所以不推荐使用。空缺值处理(2)使用属性的平均值填充空缺值。使用与给定样本同一类的所有样本的平均值使用最可能的值填充空缺值使用现存数据的多数信息来推测空缺值可以用回归、基于推导的使用使用贝叶斯形式化方法的工具或判定树归纳确定。噪声噪声(nois

3、e)是一个测量变量中的随机错误或偏差。平滑数据,去处噪声的方法(1)分箱(binning):分箱方法通过参考“邻居(即周围的值)”。由于分箱方法参考相邻的值,因此它进行局部平滑。按箱平均值平滑按箱中值平滑按箱边界平滑箱中最大和最小值被视为箱边界箱中的每一个值被最近的边界值替换平滑数据,去处噪声的方法(2)聚类:孤立点可以被聚类检测,落在聚类集合之外的值被视为孤立点。计算机和人工检查结合回归:可以通过让数据适合一个函数来平滑数据。数据变换将数据由宿主格式装换成数据仓库格式。数据变换将数据转换成适合挖掘的形式平滑:去掉数据中的噪声聚类

4、:对数据进行汇总和聚集数据概化:使用概念分层,用高层次概念替换低层次“原始”数据。规范化:将属性数据按比例缩放,使之落入一个小的特定空间。属性构造:构造新的属性并添加到属性集中。规范化最小-最大规范化Z-score规范化属性A的值基于A的平均值和标准差规范化小数定标规范化通过移动小数点的位置进行规范化。j是使得Max(

5、V’

6、)<1的最小整数数据集成(1)将数据由多个源合并成一致的数据存储,如:数据仓库数据立方体数据集成(2)--实体识别来自多个信息源的现实世界的实体如何才能匹配?这涉及实体识别问题。如:如何确信customer_

7、id和cust_number指的是同一实体。元数据可以帮助避免模式集成中的错误。数据集成(3)—冗余一个属性是冗余的,如果它能由另一个表“导出”。属性或维命名的不一致也可能导致数据集中的冗余。有些冗余可以被相关分析检测到。除了检测属性间的冗余外,“重复”也应当在元组级进行检测。重复是指对于同一数据,存在两个或多个相同的元组。数据集成(4)—数据值冲突对于现实世界的同一实体,来自不同数据源的属性值可能不同。这可能因为表示、比例或编码不同。如重量属性可能在一个系统中以公制单位存放,在另一个系统中以英制单位存放。数据归约通过聚集、删除冗

8、余特性或聚类等方法来压缩数据。使用数据归约技术得到的数据集,小得多,但仍接近于保持原数据的完整性。因此数据挖掘将产生相同(或几乎相同)的分析结果。用于数据压缩的时间不应当超过数据挖掘节省的时间。数据归约的策略1)数据立方体聚集2)维归约3)数据压缩4)数值压缩5)离散化和概念分层产生数据立方体聚集每个属性可能存在概念分层,允许在多个抽象层进行数据分析。创建在最低层的数据立方体称为基本方体最高层的数据立方体称为顶点方体维归约用于数据分析的数据可能包含数以百计的属性,其中大部分与挖掘任务不相关,是冗余的。维归约通过删除不相关的属性(或

9、维)减少数据量。通常使用属性子集选择方法。属性子集选择的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性的原分布。穷举是不现实的,策略是做局部最优选择,期望由此导致全局最优解。属性子集选择方法1)逐步向前选择:该过程由空属性集开始,选择原属性集中最好的属性,并将它添加到该集合中,不断迭代。2)逐步向后删除:该过程由整个属性集开始,每一步删除尚在属性集中的最坏属性。3)向前选择和向后删除的结合:每一步选择一个最好的属性,并在剩余属性中删除一个最坏的属性。4)判定树归纳:树由给定的数据构造。不出现在树中的所有属性假定

10、是不相关的。出现在树中的属性形成归约后的属性子集。数据压缩在数据压缩时,应用数据编码或变换,以便得到原数据的归约或“压缩”表示。如果原数据可以由压缩数据重新构造而不丢失任何信息,则所使用的数据压缩技术是无损的。如果只能重新构造原数据的近似表示,则该

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。