欢迎来到天天文库
浏览记录
ID:42695454
大小:35.50 KB
页数:6页
时间:2019-09-20
《缺失值和特殊值:数据分析的烦扰》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、缺失值和特殊值:数据分析的烦扰对于数据挖掘和分析人员來说,数据准备(DataPreparation,包括数据的抽取、清洗、转换和集成)常常占据了70%左右的工作量。而在数据准备的过程中,数据质量差又是最常见而且令人头痛的问题。本文针对缺失值和特殊值这种数据质量问题,进行了初步介绍并推荐了一些处理方法。值得注意的是,这里所说的缺失值,不仅包括数据库中的NULL值,也包括•用于表示数值缺失的特殊数值(比如,在系统屮用・999来表示数值不存在)。如果我们仅有数据库的数据模型,而缺乏相关说明,常常需要花费更多的精力来发现这些数值的特殊含义。而如果我们漠视这些数值的特殊性,直接拿來进行挖掘,那
2、么很可能会得到错误的结论。还有一种数值缺失的情况,是因为我们要求统计的时间窗口并非对所有数据都适合。例如,我们希望计算出“客户在以前六个月内的最人存款余额”,对于那些建立账户尚不满六个月的客户來说,统计出來的数值与我们想要得到的就可能存在差距。一般来说,对缺失值的填充方法有多种,用某个常数来填充常常不是一个好方法。最好建立一些模型,根据数据的分布來填充一个更恰当的数值。(例如根据其它变量对记录进行数据分箱,然后选择该记录所在分箱的相应变量的均值或中位数,来填充缺失值,效果会更好一些)造成数据缺失的原因在各种实用的数据库中,属性值缺失的情况经常发全甚至是不可避免的。因此,在人多数情况下
3、,信息系统是不完备的,或者说存在某种程度的不完备。造成数据缺失的原因是多方面的,主要可能有以下儿种:1)有些信息暂时无法获取。例如在医疗数据库中,并非所冇病人的所有临床检验结果都能在给定的时间内得到,就致使一部分属性值空缺出来。乂如在申请表数据中,对某些问题的反映依赖于对其他问题的冋答。2)有些信息是被遗漏的。可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏,也町能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障、一些人为因素等原因而丢失了。3)有些对彖的某个或某些属性是不可用的。也就是说,对于这个对彖来说,该属性值是不存在的,如一个未婚者的配偶姓名、一个儿童的固
4、定收入状况等。4)有些信息(被认为)是不重耍的。如一个属性的取值与给定语境是无关的,或训练数据库的设计者并不在乎某个属性的取值(称为dont-carevalue)[37]o5)获取这些信息的代价太大。6)系统实时性能要求较高,即要求得到这些信息前迅速做出判断或决策。数据缺失机制在对缺失数据进行处理前,了解数据缺失的机制和形式是十分必耍的。将数据集中不含缺失值的变量(属性)称为完全变量,数据集中含冇缺失值的变最称为不完全变量,Little和Rubin定义了以下三种不同的数据缺失机制[38]:1)完全随机缺失(MissingCompletelyatRandom,MCAR)。数据的缺失与不
5、完全变量以及完全变量都是无关的。2)随机缺失(MissingatRandom,MAR)。数据的缺失仅仅依赖于完全变量。3)非随机、不可忽略缺失(NotMissingatRandom,NMAR,ornonignorable)e不完全变量中数据的缺失依赖于不完全变量本身,这种缺失是不可忽略的。空值语义对于某个对象的属性值未知的情况,我们称它在该属性的取值为空值(nullvalue)o空值的来源有许多种,I大I此现实世界中的空值语义也比较复杂。总的说來,可以把空值分成以下三类[39]:1)不存在型空值。即无法填入的值,或称对象在该属性上无法取值,如一个未婚者的配偶姓名等。2)存在型空值。即
6、对象在该属性上取值是存在的,但材时无法知道。一旦对象在该属性上的实际值被确知以后,人们就可以用相应的实际值來取代原来的空值,使信息趋于完全。存在型空值是不确定性的一种表征,该类空值的实际值在当前是未知的。但它冇确定性的一面,诸如它的实际值确实存在,总是落在一个人们可以确定的区间内。一般情况下,空值是指存在型空值。3)占位型空值。即无法确定是不存在型空值还是存在型空值,这要随着时间的推移才能够清楚,是最不确定的一类。这种空值除填充空位外,并不代表任何其他信息。空值处理的垂要性和复杂性数据缺失在许多研究领域都是一个复杂的问题。对数据挖掘來说,空值的存在,造成了以下影响:首先,系统丢失了大
7、量的有用信息;笫二,系统中所表现出的不确定性更加显著,系统中蕴涵的确定性成分更难把握;笫三,包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。数据挖掘算法本身更致力于避免数据过分适合所建的模型,这一特性使得它难以通过自身的算法去很好地处理不完整数据。因此,空缺的数据需要通过专门的方法进行推导、填充等,以减少数据挖掘算法与实际应用之间的差距。空值处理方法的分析比较处理不完备数据集的方法主要有以下三大类:(一)删除元组也就是将存在遗漏信息属性值的对彖(元组
此文档下载收益归作者所有