欢迎来到天天文库
浏览记录
ID:45034935
大小:309.34 KB
页数:29页
时间:2019-11-08
《datapreprocess(数据预处理)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据预处理为什么要预处理数据与现实世界有关数据库太大,信息多而杂数据易受噪声数据、空缺数据和不一致性数据的侵扰数据预处理提高数据质量,提高挖掘结果的质量使挖掘过程更有效、更容易如何预处理数据一般的预处理方法数据清理、数据集成和变换、数据归约数据预处理用于一些具体的web挖掘中的方法使用预处理:数据净化、用户识别、会话识别、帧页面识别、路径补缺、事务识别等结构预处理:站点拓扑内容预处理:页面信息抽取、信息主观兴趣特征定义数据预处理一般的预处理方法数据清理原因:现实世界的数据一般是脏的、不完整和不一致的。功能:填充空缺值、识别孤立点、消除噪声
2、、纠正数据不一致。具体实现:空缺值忽略元组:除非元组有多个属性缺少值,否则该方法不是很有效。数据预处理人工填写空缺值:费时,数据集大时可能行不通使用一个全局常量填充空缺值:如Unknow或-∞使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最有可能的值填充空缺值:利用回归、判定树归纳等方式确定数据预处理噪声数据噪声是一个测量变量中的随机错误或偏差噪声平滑技术:分箱:例:原始数据为4,8,15,21,21,24,25,28,34划分为(等深的)箱箱14815箱2212124箱3252834数据预处理用箱的平均值平滑箱1
3、999箱2222222箱3292929用箱边界平滑箱14415箱2212124箱3252534划分为(等深的)箱箱14815箱2212124箱3252834数据预处理聚类:将类似的值组织成群或“聚类”,落在聚类集合外的点被视为孤立点计算机和人工检查结合:计算机根据信息度量理论等进行初次筛选,将筛选结果交由人来复查回归:通过让数据适合一个函数(如回归函数)来平滑数据数据预处理不一致数据对于有些事务,所记录的数据可能存在不一致。有些数据不一致可以使用其他材料人工地更正。知识工程工具也可以用来检测违反限制的数据。例如,知道属性的函数依赖,可以查
4、找违反函数依赖的值。数据预处理数据集成功能:将来自不同数据源的数据整合成一致的数据存储。元数据、相关分析、数据冲突检测和语义异种性的解析都有助于数据集成。问题和解决办法:问题1:模式集成来自多个信息源的现实世界的实体如何“匹配”?------实体识别问题数据预处理例如:数据分析者或计算机如何才能确信一个数据库中的customer_id和另一个数据库中的cust_number指的是同一个实体?解决方法:利用数据库的元数据----一种关于数据的数据。这种元数据可以帮助避免模式集成中的错误。问题2:冗余一个属性若能由另一个表导出,它便是冗余的。
5、例如年薪。属性或维命名的不一致也可能导致数据集中的冗余。解决方法:可利用相关分析的方法检测冗余。除了检测属性间的冗余外,“重复”也当在元组级进行检测。所谓重复是指对于同一数据,存在两个或多个相同的元组。数据预处理问题3:数据值冲突的检测和处理对于现实世界的同一实体,来自不同数据源的属性值可能不同。这可能是因为表示、比例或编码的不同。例如重量属性可能在一个系统中以公制单位存放,而在另一个系统中以英制单位存放。数据这种语义上的异种性,是数据集成的巨大挑战。数据预处理数据变换将数据转换成适合挖掘的形式。平滑:去掉数据中的噪声。这种技术包括分箱、
6、聚类和回归。聚集:对数据进行汇总和聚集。例如可以聚集日销售数据,计算年销售额。通常这一步用来为多粒度数据分析构造数据立方体。数据预处理数据概化:使用概念分层,用高层次的概念替换低层次的“原始”数据。如分类的属性street可以概化为较高层的概念,如city或country。规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0到1.0或0.0到1.0最小----最大规范化:对原始数据进行线形变换。假定属性A的最小和最大值分别为minA和maxA,计算数据预处理将A的值映射到区间[new_minA,new_maxA]中的v’z-
7、score规范化:属性A的值基于A的平均值和标准差规范化,计算小数定标规范化:通过移动属性A的小数点位置进行规范化,计算数据预处理属性构造:由给定的属性构造和添加新的属性,以帮助提高精度和对高维数据结构的理解。例如,我们可能根据属性height和width添加属性area。通过组合属性,属性构造可以发现关于数据属性间联系的丢失信息,这对知识发现是有用的。数据归约对数据处理的技术,如数据立方体聚集、维归约、数据压缩、数值归约和离散化都可以用来得到数据的归约表示,而使得信息内容的损失最小。数据预处理数据立方体聚集:聚集操作用于数据立方体中的数
8、据。维归约:通过删除不相关的属性(或)维减少数据量。通常使用属性子集选择方法。属性子集选择方法:目标:找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性的原分布。优点:减少了出现在发
此文档下载收益归作者所有