欢迎来到天天文库
浏览记录
ID:5955878
大小:43.50 KB
页数:18页
时间:2017-12-29
《构建数据仓库过程中数据清洗探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、构建数据仓库过程中数据清洗探究 摘要:文章对构建数据仓库中的数据清洗研究现状进行了论述。介绍了脏数据的类型与出现原因、数据清洗在国内外的研究现状、定义和对象,重点阐述了属性级异常数据和记录级异常数据的检测与处理算法;总结当前数据清洗研究的不足,并对今后数据清洗的研究进行展望。关键词:数据清洗脏数据异常数据检测重复记录检测中图分类号:G302;TP391文献标识码:A文章编号:1003-6938(2013)05-0022-071引言随着计算机信息系统在各行各业的普及,产生了大量的数据,怎样对这些数据进行有效的组织是当前研究的热点之一。数据仓库作为一种有效的数据组织方式,得到了
2、广泛的应用。数据仓库是面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理层的决策过程[1]。数据仓库不仅是一种语义一致的数据存储,充当决策支持数据模型的物理实现,并存放企业战略决策所需要的信息,也是一种体系结构,将异构数据源中的数据集成在一起而构建,为企业的决策者提供知识支持。18利用数据仓库对大量数据进行有效的组织,避免出现”garbagein,garbageout”的情况[2],则必须保证数据仓库中的数据的准确性、一致性、完整性、时效性、可靠性和可解释性[3],即数据是高质量的数据,才能使OLAP分析或挖掘的结果具有较高的精确性和可信度。但由于种种原因,现实
3、中的数据都是脏数据,要提高数据的质量,不仅要在事前对数据进行严格定义与约束,而且还要在事后使用特定算法对数据进行检测与处理[4]。国外对数据清洗的研究起源于上世纪50年代的美国,是从纠正全美社会保险号开始[5],主要是处理西文数据,其研究主要集中以下几个方面:(1)异常数据的检测与处理;(2)数据重复的检测与处理;(3)面向特定领域的数据清洗;(4)与领域无关的数据清洗;(5)数据的集成。数据清洗也必须考虑数据集成问题,即将数据源中的结构和数据映射到目标结构与域中,而数据的多义性和结构对数据集成提出了巨大的挑战,数据集成包括:实体识别、冗余与相关分析、元组重组和数据值冲突的检
4、测与处理[3]。国外关于中文的数据清洗的研究较少,且由于语种的差异性,能够适应英文数据清洗的方法不一定能适合中文数据清洗。比较成熟的方案有IBM公司提出的基于InfoSphereQualityStage的中文数据清洗[6-7]。18国内对于数据清洗的研究较晚,并且针对中文的数据清洗研究的成果也不多。当前国内对数据清洗的研究主要集中在改进西文算法应用到中文领域,取得了一些成果。复旦大学的周傲英教授团队[8]、沈阳航空工业学院的夏秀峰教授[9]、李蜀瑜博士[10]、东南大学的董逸生教授的团队[11]均对数据重复问题进行了研究;北京大学的杨冬青教授的团队[12]、武汉理工大学的袁景
5、凌副教授[13]、东南大学的董逸生教授团队[14]、复旦大学的周傲英教授团队[15]等对数据的集成问题进行了研究;中科院的刘清[16]、山东理工大学的王晓原教授[17]、西安理工大学张璟教授[18]、上海宝钢公司的王永红[19]、东北大学的于戈教授团队[20-22]、西北大学的李战怀教授团队[23]、辽宁大学的宋宝燕教授团队[24]、贵州大学的李少波教授团队[25]、沈阳航空航天大学的夏秀峰教授团队[26]均对面向特定领域的数据清洗进行了研究。本文将对脏数据的类型与出现原因进行总结,对数据清洗的国内外研究现状进行分析,提出数据清洗的定义与对象,重点阐述属性级异常数据的检测与处
6、理的算法、记录级重复数据的检测与处理的算法,并对算法的优缺点及适用范围做简要说明,并指出当前数据清洗技术的研究不足以及未来研究的方向。2脏数据的类型与出现原因18脏数据的类型有许多种类,且每种脏数据出现的原因也不一样,本文从单数据源的脏数据类型与出现原因和多数据源的脏数据类型与出现原因进行描述,根据复旦大学周傲英教授对脏数据的分类,将脏数据分为单数据源模式层问题、单数据源实例层问题、多数据源模式层问题和多数据源实例层问题四种类型[27],表1列出了“脏数据”类型、实例与出现原因。如表1所示,“脏数据”的类型有很多种,在实例层来说,单数据源的“脏数据”就是不完整数据、不正确数据
7、、不可理解数据、过时数据、数据重复等,单数据源的数据清洗主要是指在属性上对数据进行检测与处理;多数据源的“脏数据”更为复杂,主要指大量的重复数据、数据冲突,多数据源的数据清洗主要指是对重复数据的检测与处理、解决数据冗余和数据冲突问题。3数据清洗的定义与对象3.1数据清洗的定义数据清洗不仅应用在数据仓库中,也应用在数据挖掘和全面数据质量管理领域,不同的领域中数据清洗的定义也不相同,数据清洗没有统一的定义。本文借用南京理工大学的王曰芬教授[28]对数据清洗的定义:数据清洗为清除错误和不一致数据的过程,并需要
此文档下载收益归作者所有