欢迎来到天天文库
浏览记录
ID:34772684
大小:93.46 KB
页数:8页
时间:2019-03-10
《数据预处理任务及方法》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、数据预处理任务及方法聚类(Aggregation)抽样(Sample)维数约减(Dimensionalityreduction)特征子集选择(Featuresubsetselection)特征创造(Featurecreation)离散化和二进制化(Discretizationandbinarization)变量转换(Variabletransformation)总的来说,这些内容可以分为两类:为分析数据选择数据对象和属性;为分析数据创造或改变属性。所有这些内容都是考虑到时间、成本和质量,提高数据挖掘分析质量。(属性、特征、变量都是近义词,不做具体区分)一、聚类考虑到有时
2、候“lessismore”,将两个或多个对象合并成一个就是聚类的思想。举个例子,下表是由交易记录(数据对象)构成的一个数据集,它是不同地点的商店在一年内的时间的产品日常销售数据(Minneapolis,Chicago,Paris,……)。聚合这样的数据集的一种方法是将一个商店的所有的交易记录用一个单独的商店范围的交易代替。这样就可以减少上千条交易记录了。TransactionIDItemStoreLocationDataPrice…………………101123WatchChicago09/06/04$25.99…101123BatteryChicago09/06/04$5.
3、99…101124ShoesMinneapolis09/06/04$75.00…………………但是这样的方法有一个非常明显的问题:如何创造一个聚类的交易记录,即应该如何根据一个指定地点的记录来合并属性的值,创造聚类交易,使其能代表一个商店或者一个时间的交易。数值型属性如价格,可以采用加和或者平均值的方式代替。质量型属性如项目,则可以采用省略或者某个地点的项目和的方法。该表格的数据可以看成是多维的列,每个属性即是一个维度。根据这种思想,聚类可以看成是消除属性,如删除项目列,或者减少某个属性的值的数量,如将日期可能的值从365天改成12个月的记录方式。这种聚类经常出现在在线分
4、析处理中(OnlineAnalyticalProcessing,OLAP)中。聚类的动机:1、小的数据集可以节省内存,提高处理效率。2、聚类可以提供更高层的数据视图。3、群体对象的行为要比个体更加稳定。但是聚类有一个缺点就是可能会丢失有趣的细节。二、抽样数据挖掘中的抽样动机与统计学中的抽样有所不同。统计学的抽样是因为获得全体的成本花费太高,而数据挖掘的抽样是因为处理所有的数据代价太高。抽样就要使样本具有代表性,即样本与总体有近似的属性。抽样的方法:最简单的抽样方法是随机抽样。随即抽样分成两种(其它抽样方法类似):不带重复的抽样和带重复的抽样。当样本与总体数据相比很小时,
5、两种方法没有大的区别,但是带重复的抽样在分析时相对简单,因为在样本处理中,选取任何对象的概率是一样的。当总体有很多不同类型的对象,且对象的数量有很大不同时,简单随机抽样并不适合。这就要使用分层抽样。维数约减(DimensionalityReduction)数据集可以有很多的特征。对维数进行约减可以有很多好处。其中一个关键的有点是很多数据挖掘算法在低维度的情况下有很好的表现。这是因为维数约减可以消除无关的特征并降低噪音数据,也可能是因为维数灾难(thecurseofdimensionality)。维数约减的另一个好处是可以建立一个容易被理解的模型。维数约减通常可以采用建立
6、新属性的方式,将几个旧属性合并在一起。也可以选择旧属性集中的子集,这种方法通常称为特征子集选择或者特征选择。维数灾难(TheCurseofDimensionality)维数灾难是指很多情况下的数据分析在数据维度增加的情况下会变得非常困难的现象。特别地,当数据维度增加时,数据会变得非常稀疏。与维数约减有关的线性代数技术维数约减中最常用的方法(尤其是针对连续性数据来说)是使用线性代数的相关技术。主成分分析(PrincipalComponentsAnalysis,PCA)是给连续性数据建立新属性的线性代数的方法。其新属性是:(1)源属性的线性联合,(2)是相互正交的,(3)是
7、数据中变化最大的(capturethemaximumamountofvariationinthedata)。奇异值分解(SingularValueDecomposition,SVD)是一种与PCA有关的线性代数的技术,在维数约减中被经常使用。三、特征子集选择只使用特征集中的一个子集是维数约减中的一种方法,尽管这样的方法可能会丢失信息,但是如果有多余的(redundant)和无关的(irrelevant)特征时就不会出现这种状况。多余的特征(Redundantfeatures)是指有重复的信息或者所有的信息都在一个或者多个属性中。无关的特征
此文档下载收益归作者所有